文件名称:大数据基础--大数据概念与应用(刘鹏《大数据》课后习题答案).pdf
文件大小:145KB
文件格式:PDF
更新时间:2022-12-24 12:27:43
文档资料
⼤数据基础 ⼤数据基础--⼤数据概念与应⽤(刘鹏《⼤数据》课后习题答 ⼤数据概念与应⽤(刘鹏《⼤数据》课后习题答 案) 案) 1.新摩尔定律的含义是? Jim Gray提著名的"新摩尔定律",即⼈类有史以来的数据总量,每过18个⽉翻⼀番。 2.⼤数据现象是怎么形成的? 随着存储成本的下降,云计算、硬件性价⽐以及软件技术的进步,智能设备、传感器的普及,物联⽹、⼈⼯智能的发展,数据规模急剧膨胀,各 ⾏业积累的数据量越来越⼤,数据类型也越来越多,越来越复杂,于是"⼤数据"应运⽽⽣。 3.⼤数据有哪些特征? (1)Volume,体量⼤。从2013⾄2020年,⼈类的数据规模将扩⼤50倍,每年产⽣的数据将增长到44万亿GB,相当于美国国家图书馆数量的数 百万倍,且每18个⽉翻⼀番。 (2)Variety,种类多。⼤数据与传统数据相⽐,数据来源⼴、维度多、类型杂。 (3)Velocity,速度快。随着现代感测、互联⽹、计算机技术的发展,数据⽣成、存储、分析、处理的速度远远超过⼈类的想象⼒,这也是⼤数 据区别于传统数据或⼩数据的显著特征。 (4)Value,价值⾼但价值密度低。⼤数据有巨⼤的潜在的价值,但同其呈⼏何指数爆发的增长相⽐,某⼀对象或模块数据的价值密度较低,这 ⽆疑给我们开发海量数据增加了难度和成本。 4.如何对⼤数据的来源进⾏分类? 我们可以从产⽣数据的主体、数据来源的⾏业、数据存储的形式三个⽅⾯对⼤数据的来源进⾏分类。 (1)按产⽣数据的主体划分 1)少量企业应⽤产⽣的数据。 2)⼤量⼈产⽣的数据。 3)巨量机器产⽣的数据。 (2)按数据来源的⾏业划分 1)以BAT为代表的互联⽹公司。 2)电信、⾦融、保险、电⼒、⽯化系统 3)公共安全、医疗、交通领域 4)⽓象、地理、政务等领域 5)制造业和其他传统⾏业 (3)按数据存储的形式划分 1)结构化数据 2)⾮结构化数据 5.常⽤⼤数据获取的途径 (1)系统⽇志采集 (2)互联⽹数据采集 (3)APP移动端数据采集 (4)与数据服务机构进⾏合作 6.⼤数据处理⽅法有哪些? (1)⼤数据采集。⼤数据的采集通常采⽤多个数据库来接收终端,并且可以使⽤数据库进⾏简单的处理⼯作。常⽤⽅法主要有数据抓取、数据 导⼊、物联⽹传感设备⾃动采集。 (2)导⼊与预处理。主要包括数据清洗、数据集成、数据变换、数据归约。 (3)统计与分析。统计与分析主要是利⽤分布式数据库,或分布式计算集群来对存储于其内的海量数据进⾏普通的分析和分析汇总,以满⾜⼤ 多数常见的分析需求。 (4)⼤数据挖掘。数据挖掘是创建数据挖掘模型的⼀组试探法和计算⽅法,通过对提供的的数据进⾏分析,查找特定类型的模式和趋势,最终 形成创建模型。⽅法主要有分类、聚类、关联规则和预测模型。 6.⼤数据预处理的⽅法有哪些? (1)数据清洗。主要是达到数据格式标准化、异常数据清除、数据错误纠正、重复数据的清除等⽬标。 (2)数据集成。是将多个数据源中的数据结合起来并统⼀存储,建⽴数据仓库。 (3)数据变换。过平滑聚集、数据概化、规范化等⽅式将数据转换成适合数据挖掘的形式。 (4)数据归约。寻找依赖于发现⽬标的数据的有⽤特征,缩减数据规模,最⼤限度地精简数据集。 7.⼤数据的挖掘⽅法有哪些? (1)分类。⼀种重要的数据分析形式,根据重要数据类的特征向量及其他的约束条件,构造分类函数或分类模型,⽬的是根据数据集的特点把 未知类别的样本映射到给定类别中。典型算法:朴素贝叶斯算法、KNN、SVM、AdaBoot算法、C4.5算法、CART算法。 (2)聚类。⽬的在于将数据集内具有相似特征属性的数据聚集在⼀起,同⼀个数据群中的数据特征要尽可能相似,不同的数据群中的数据特征 要有明显区别。典型算法:BIRCH算法、K-means算法、期望最⼤化算法(EM算法), (3)关联规则。指搜索系统中的所有数据,找出所有能把⼀组事件或数据项与另⼀组事件或数据项联系起来的规则,以获得预先未知的和被隐 藏的,不能通过数据库的逻辑操作或统计⽅法得出的信息。典型算法:Apriori算法、FP-Growth算法。 (4)预测模型。⼀种统计或数据挖掘的⽅法,包括可以在结构化与⾮结构化数据中使⽤已确定未来结果的算法和技术,可为预测、优化、预报 和模拟等许多业务系统使⽤。典型算法:序贯模式挖掘SPMGC算法。 8.⼤数据应⽤场景 (1)零售⾏业⼤数据应⽤ (2)⾦融⾏业⼤数据应⽤ (3)医疗⾏业⼤数据应⽤ (4)教育⾏业⼤数据应⽤ (5)农业⼤数据应⽤ (6)环境⼤数据应⽤