news 2026/6/14 22:58:50

思考与练习(大学计算机基础系列:大数据概论)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
思考与练习(大学计算机基础系列:大数据概论)

一、单项选择题(本大题共 15 小题)

1、关于“大数据”(Big Data)的定义,以下哪种说法最为准确?

① 大数据仅指规模超过 1 TB的数据集合

② 大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合

③ 大数据就是存储在大型数据中心的所有数据

④ 大数据特指由社交媒体产生的海量文本数据

2、大数据的特征通常被概括为“5V”模型。以下哪一项不属于这“5V”之一?

① Volume(大量)

② Velocity(高速)

③ Variety(多样)

④ Visibility(可见性)

3、根据大数据的分类,来自关系型数据库的、具有严格行和列定义的数据通常属于:

① 结构化数据

② 半结构化数据

③ 非结构化数据

④ 流式数据

4、在大数据技术栈中,HDFS(Hadoop Distributed File System)主要用于解决什么问题?

① 高速流式数据的实时计算

② 大规模数据的分布式存储

③ 复杂机器学习模型的训练

④ 非关系型数据的查询

5、用于描述大数据中数据产生和处理速度极快这一特征的术语是:

① Volume

② Velocity

③ Variety

④ Veracity

6、以下哪种数据库类型特别适合存储和处理如 JSON、XML 这类具有自描述结构,但缺乏严格模式定义的数据?

① 关系型数据库(如 MySQL)

② 键值数据库(如 Redis)

③ 文档数据库(如 MongoDB)

④ 图数据库(如 Neo4j)

7、在经典的大数据处理框架 MapReduce 中,负责对 Map 阶段输出的中间结果进行合并和汇总,并生成最终结果的阶段是:

① Input 阶段

② Map 阶段

③ Shuffle 阶段

④ Reduce 阶段

8、大数据分析中,旨在将数据集中的对象划分为若干个组,使得同一组内的对象彼此相似,而不同组间的对象相异的技术被称为:

① 回归分析

② 聚类分析

③ 分类分析

④ 关联规则分析

9、在评估大数据价值时,一个普遍观点认为大数据具有“价值密度低”的特点。这主要是指:

① 存储大数据的硬件成本非常低廉

② 单个数据记录通常包含极高的商业价值

③ 海量原始数据中有价值的信息比例相对较低

④ 大数据分析的结果总是准确的

10、为了保证大数据系统的可靠性,HDFS 采用了数据块副本机制。如果一个文件的原始大小为 200MB,HDFS 的块大小设置为 128MB,副本系数设置为 3,那么该文件在 HDFS 集群中实际占用的存储空间大约是(忽略元数据开销):

① 200 MB

② 400 MB

③ 600 MB

④ 800 MB

11、大数据处理可分为批处理和流处理两种模式。以下哪种场景通常更适合使用流处理框架(如 Apache Flink、Storm)?

① 月底结算,需要统计整个月的销售总额

② 实时监控网络流量,检测异常入侵行为

③ 对过去一年的用户日志进行挖掘,生成年度报告

④ 每周一次对客户数据库进行备份

12、在大数据分析过程中,对数据进行清洗、转换、集成和规约,以消除噪声、不一致和冗余,为后续分析准备高质量数据集的步骤被称为:

① 数据可视化

② 数据建模

③ 数据预处理

④ 数据采集

13、大数据的一个典型应用场景是个性化推荐系统(如电商网站、视频平台)。这种系统主要利用了大数据哪方面的能力?

① 高速(Velocity)处理用户实时请求

② 多样(Variety)处理多种类型的数据(文本、图像、行为)

③ 从海量(Volume)用户行为数据中挖掘模式和价值(Value)

④ 确保数据真实性(Veracity)以提供准确推荐

14、以下关于大数据挑战的描述中,不正确的是:

① 大数据分析技术已完全成熟,没有技术门槛

② 数据安全和用户隐私保护是大数据应用面临的重要问题

③ 数据质量参差不齐(真实性问题)会影响分析结果的准确性

④ 可能存在“数据孤岛”,即数据在不同部门或系统间难以共享和整合

15、在数据挖掘算法中,通过构建树状模型来进行分类或预测,其模型结构直观易懂,便于解释。这种算法是:

① K-Means 算法

② 决策树算法

③ 朴素贝叶斯算法

④ 支持向量机算法

二、填空题(本大题共 5 小题)

1、大数据的“5V”特征包括:大量(Volume)、高速(Velocity)、多样(Variety)、价值(Value)和( )。

2、与传统的( )数据库不同,NoSQL 数据库通常不遵循固定的表结构,具有良好的可扩展性,适合处理大规模非结构化和半结构化数据。

3、在 Hadoop 生态系统中,负责对存储在 HDFS 上的大规模数据集进行并行计算的编程模型和框架是( )。

4、从大量数据中通过算法搜索隐藏于其中有价值的信息和知识的过程,被称为( )。

5、大数据处理中的( )处理模式,是指对已经存储好的静态数据集(如历史日志)进行分析计算;而( )处理模式则是指对连续不断产生的动态数据流进行实时分析。

附:参考答案与解析

“点赞有美意,赞赏是鼓励”

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/14 12:31:00

如何快速掌握pdfmake:从零开始的JavaScript PDF生成终极指南

如何快速掌握pdfmake:从零开始的JavaScript PDF生成终极指南 【免费下载链接】pdfmake Client/server side PDF printing in pure JavaScript 项目地址: https://gitcode.com/gh_mirrors/pd/pdfmake 还在为JavaScript PDF生成工具的复杂配置而烦恼吗&#xf…

作者头像 李华
网站建设 2026/6/15 9:15:58

Dify工作流HTML渲染终极指南:从零构建专业级可视化应用

Dify工作流HTML渲染终极指南:从零构建专业级可视化应用 【免费下载链接】Awesome-Dify-Workflow 分享一些好用的 Dify DSL 工作流程,自用、学习两相宜。 Sharing some Dify workflows. 项目地址: https://gitcode.com/GitHub_Trending/aw/Awesome-Dify…

作者头像 李华
网站建设 2026/6/14 15:58:28

Vue Vben Admin 精简版:免费开箱即用的中后台终极解决方案

Vue Vben Admin 精简版:免费开箱即用的中后台终极解决方案 【免费下载链接】vben-admin-thin-next 项目地址: https://gitcode.com/gh_mirrors/vbe/vben-admin-thin-next Vue Vben Admin 精简版是一款基于 Vue 3、Vite 2 和 TypeScript 的现代化中后台前端模…

作者头像 李华
网站建设 2026/6/14 20:20:18

CountUp.js数字动画实战指南:轻松打造专业级数据可视化

在现代Web开发中,数字动画效果已成为提升用户体验的重要元素。CountUp.js作为一款轻量级、无依赖的JavaScript数字动画库,能够为您的网站添加生动有趣的动态计数效果,让数据展示更具吸引力。 【免费下载链接】countUp.js Animates a numerica…

作者头像 李华
网站建设 2026/6/15 5:34:08

Windows字体自定义完整指南:用noMeiryoUI打造个性化系统界面

Windows字体自定义完整指南:用noMeiryoUI打造个性化系统界面 【免费下载链接】noMeiryoUI No!! MeiryoUI is Windows system font setting tool on Windows 8.1/10/11. 项目地址: https://gitcode.com/gh_mirrors/no/noMeiryoUI 你是否对Windows系统千篇一律…

作者头像 李华
网站建设 2026/6/15 10:20:28

14、深入理解访问控制与系统消息管理

深入理解访问控制与系统消息管理 1. 传统安全模型的困境与RBAC的引入 在传统的UNIX系统中,采用的是超级用户安全模型,即只有一个拥有所有权限的root账户(超级用户)。超级用户可以对系统进行各种操作,如修改防火墙、读写机密数据、关闭整个网络等。一个具有root权限的程序…

作者头像 李华