大数据技术概述.pdf下载

【文件属性】：

文件名称：大数据技术概述.pdf

文件大小：576KB

文件格式：PDF

更新时间：2022-12-24 14:53:25

文档资料

⼤数据技术概述⼤数据的概念 4V：⼤量化volume、价值密度低value、快速化velocity、多样化variety。⼤量化每两年增长⼀倍，到了2020年，全球就会有35ZB数据量，Byte->KB->MB->GB->TB->PB->EB->ZB。多样化，结构化数据，保存在关系数据库中，具有规范的⾏和列的结构数据，只占⼈类数据量10%不到。90%是⾮结构化数据，存储在⾮关系数据库中。快速化，数据有价值必须快速处理，⼀秒定律，数据从⽣成到决策响应仅需要⼀秒，时间延长不会有商业价值，例如推荐系统。价值密度低，⼤量数据中有价值的⽐较少，但是单点价值⽐较⾼⼤数据影响数据库专家jim gray，⼈类从诞⽣以来，经历了四种研究范式。2010年后，进⼊⼤数据时代以后，是以数据为中⼼的研究范式。第⼀种实验，⼀开始科研就是做实验观察；第⼆种理论，发明了⽜顿定律、⼏何理论由理论去研究科学问题；第三阶段，⼀九四⼏年计算机开始发明以后，进⼊以计算为中⼼的时代，靠计算可以帮助我们解决相关的科学问题。以计算为中⼼，事先已经知道问题是什么，以数据为中⼼事先问题不知，只有⼀堆数据，从⼤量数据中去发现问题，再靠数据去解决问题，全部靠数据去驱动。我们思维⽅式⾃从⼤数据时代到来后，发⽣了值的变迁。全样⽽⾮抽样，以前采⽤统计学抽样⽅式（存储设备贵、存储数据少、CPU和技术能⼒不强、⽆法短时间迅速计算），⼤数据时代有⾜够能⼒存储⾜够算例去计算。效率⽽⾮精确，不苛求精确度，全样数据不存在误差放⼤问题，追求速度。相关⽽⾮因果，追求相关性，⽐如相关性是推荐系统的核⼼，有相关性⾜够带来商业价值。⼤数据的关键技术数据流程包括数据采集、数据存储与管理、数据处理与分析、数据隐私与安全。⼤数据的关键技术两⼤核⼼，分布式存储和分布式处理，解决数据存储和数据⾼校计算问题。分布式存储：⾕歌GFS和开源实现HDFS->⾕歌Big Table和开源版本Hase->NoSQL（键值、列族、图形、⽂档数据库）->NewSQL。分布式处理：MapReduce->Spark->Flink。⼤数据计算模式不同的计算模式需要使⽤不同的产品。第⼀个批处理，MapReduce和Spark⾯向批处理。第⼆个流计算，流数据像溪⽔⼀样不断到达，每次量可能不⼤，但是会连续不断的到达。流数据要求实时处理，给出实时响应（秒级或毫秒级），否则分析结果会失去商业价值。流计算代表产品有S4、Storm、Flume、Puma、DStream、银河流数据处理平台。第三种模式是图计算，有些应⽤场景⽐较适合图来建模，⽐如地理信息系统（快递）、微博微信社交群体，⽹友是点，点赞就建⽴边，会发现哪些⼩朋友圈⽐较紧密。图计算代表软件：Google Pregel、GraphX、Giraph、Hma、PowerGraph、GoldenOrb。第四种场景是查询分析计算，代表产品：Google Dremel、Hive、 Cassandra、Impala。⼤数据技术之Hadoop Hadoop⽣态系统图 HDFS存储⾮结构化数据，⾯向批处理，YARN资源调度和管理框架，计算所需要底层内部CPU资源。MapReduce数据的计算。数据仓库 Hive本⾝不保存数据，数据保存在底层HDFS，本⾝是编程接⼝，把你写的SQL语句⾃动转换对HDFS查询分析，得到结果。Pig数据流处理，数据清洗转换。Mahout数据挖掘的算法库，实现常⽤数据挖掘算法（分类、聚类、回归等），调⽤接⼝，传⼊参数，减少⼯作量，针对海量数据进⾏数据挖掘分析。Ambari⾃动化的安装部署配置管理Hadoop集群的。Zookeeper分布式协作服务，选管家等，专门做分布式协调⼀致性⼯作。HBase实时性计算，分布式数据库。Flume⽇志采集，Sqoop数据库ETL（抽取、转换、加载），完成Hadoop系统组件之间的互通，Hadoop系统组件当中数据和关系数据库当中数据之间相互导⼊导出（HDFS数据可以导⼊MySql当中去）。 MapReduce，Map函数和Reduce函数，编程容易，屏蔽底层分布式并⾏编程细节。采⽤分⽽治之思想，并⾮所有任务都可以分⽽治之。 YARN实现⼀个集群多个框架，例如⼀千台机器，同时部署了三个框架（MapReduce、Storm、Impala），会产⽣打架，有三个管家去底层强CPU资源。如果三个产品只接受⼀个管家，就不会打架。出现了YARN资源调度和管理框架。⼤数据技术之Spark Spark架构图 Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core 之上的。 Spark SQL：提供通过Apache Hi

立即下载

秒客网

大数据技术概述.pdf

网友评论

相关文章