文件名称:大数据技术概述.pdf
文件大小:576KB
文件格式:PDF
更新时间:2022-12-24 14:53:25
文档资料
⼤数据技术概述 ⼤数据的概念 4V:⼤量化volume、价值密度低value、快速化velocity、多样化variety。⼤量化每两年增长⼀倍,到了2020年,全球就会有35ZB数据 量,Byte->KB->MB->GB->TB->PB->EB->ZB。多样化,结构化数据,保存在关系数据库中,具有规范的⾏和列的结构数据,只占⼈类数据 量10%不到。90%是⾮结构化数据,存储在⾮关系数据库中。快速化,数据有价值必须快速处理,⼀秒定律,数据从⽣成到决策响应仅需 要⼀秒,时间延长不会有商业价值,例如推荐系统。价值密度低,⼤量数据中有价值的⽐较少,但是单点价值⽐较⾼ ⼤数据影响 数据库专家jim gray,⼈类从诞⽣以来,经历了四种研究范式。2010年后,进⼊⼤数据时代以后,是以数据为中⼼的研究范式。第⼀种实 验,⼀开始科研就是做实验观察;第⼆种理论,发明了⽜顿定律、⼏何理论由理论去研究科学问题;第三阶段,⼀九四⼏年计算机开始发明 以后,进⼊以计算为中⼼的时代,靠计算可以帮助我们解决相关的科学问题。以计算为中⼼,事先已经知道问题是什么,以数据为中⼼事先 问题不知,只有⼀堆数据,从⼤量数据中去发现问题,再靠数据去解决问题,全部靠数据去驱动。我们思维⽅式⾃从⼤数据时代到来后,发 ⽣了值的变迁。全样⽽⾮抽样,以前采⽤统计学抽样⽅式(存储设备贵、存储数据少、CPU和技术能⼒不强、⽆法短时间迅速计算),⼤数 据时代有⾜够能⼒存储⾜够算例去计算。效率⽽⾮精确,不苛求精确度,全样数据不存在误差放⼤问题,追求速度。相关⽽⾮因果,追求相 关性,⽐如相关性是推荐系统的核⼼,有相关性⾜够带来商业价值。 ⼤数据的关键技术 数据流程包括数据采集、数据存储与管理、数据处理与分析、数据隐私与安全。⼤数据的关键技术两⼤核⼼,分布式存储和分布式处理,解 决数据存储和数据⾼校计算问题。分布式存储:⾕歌GFS和开源实现HDFS->⾕歌Big Table和开源版本Hase->NoSQL(键值、列族、图 形、⽂档数据库)->NewSQL。分布式处理:MapReduce->Spark->Flink。 ⼤数据计算模式 不同的计算模式需要使⽤不同的产品。第⼀个批处理,MapReduce和Spark⾯向批处理。第⼆个流计算,流数据像溪⽔⼀样不断到达,每 次量可能不⼤,但是会连续不断的到达。流数据要求实时处理,给出实时响应(秒级或毫秒级),否则分析结果会失去商业价值。流计算代 表产品有S4、Storm、Flume、Puma、DStream、银河流数据处理平台。第三种模式是图计算,有些应⽤场景⽐较适合图来建模,⽐如 地理信息系统(快递)、微博微信社交群体,⽹友是点,点赞就建⽴边,会发现哪些⼩朋友圈⽐较紧密。图计算代表软件:Google Pregel、GraphX、Giraph、Hma、PowerGraph、GoldenOrb。第四种场景是查询分析计算,代表产品:Google Dremel、Hive、 Cassandra、Impala。 ⼤数据技术之Hadoop Hadoop⽣态系统图 HDFS存储⾮结构化数据,⾯向批处理,YARN资源调度和管理框架,计算所需要底层内部CPU资源。MapReduce数据的计算。数据仓库 Hive本⾝不保存数据,数据保存在底层HDFS,本⾝是编程接⼝,把你写的SQL语句⾃动转换对HDFS查询分析,得到结果。Pig数据流处 理,数据清洗转换。Mahout数据挖掘的算法库,实现常⽤数据挖掘算法(分类、聚类、回归等),调⽤接⼝,传⼊参数,减少⼯作量,针 对海量数据进⾏数据挖掘分析。Ambari⾃动化的安装部署配置管理Hadoop集群的。Zookeeper分布式协作服务,选管家等,专门做分布 式协调⼀致性⼯作。HBase实时性计算,分布式数据库。Flume⽇志采集,Sqoop数据库ETL(抽取、转换、加载),完成Hadoop系统组 件之间的互通,Hadoop系统组件当中数据和关系数据库当中数据之间相互导⼊导出(HDFS数据可以导⼊MySql当中去)。 MapReduce,Map函数和Reduce函数,编程容易,屏蔽底层分布式并⾏编程细节。采⽤分⽽治之思想,并⾮所有任务都可以分⽽治之。 YARN实现⼀个集群多个框架,例如⼀千台机器,同时部署了三个框架(MapReduce、Storm、Impala),会产⽣打架,有三个管家去底 层强CPU资源。如果三个产品只接受⼀个管家,就不会打架。出现了YARN资源调度和管理框架。 ⼤数据技术之Spark Spark架构图 Spark Core:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core 之上的。 Spark SQL:提供通过Apache Hi