大数据概述——精选推荐.pdf

时间:2022-12-24 15:17:38
【文件属性】:

文件名称:大数据概述——精选推荐.pdf

文件大小:203KB

文件格式:PDF

更新时间:2022-12-24 15:17:38

文档资料

⼤数据概述 ⼤数据概述 什么是⼤数据? ⼤数据(big data)是指⽆法在⼀定时间范围内⽤常规软件⼯具进⾏捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策⼒、洞 察发现⼒和流程优化能⼒的海量、⾼增长率和多样化的信息资产。 ------百度百科 ⼀,⼤数据时代: 1)第⼀次信息化浪潮使计算机开始普及,第⼆次信息化浪潮⼈类全⾯进⼊互联⽹时代,第三次信息化浪潮解决了信息爆炸问题,⼤数据时代来。 2)存储设备容量不断增加,cpu处理能⼒⼤幅度提升,⽹络带宽不断增加为⼤数据时代提供技术⽀持。 3)数据产⽣⽅式从1.运营式阶段>2.⽤户原创内容阶段>3.感知式阶段 的变⾰促成了⼤数据时代的到来。 4)⼤数据发展阶段:   1.萌芽阶段:20世纪90年代⾄21世纪初,随着数据挖掘理论和数据库技术的逐步成熟,⼀批商业智能⼯具和知识管理技术开始被应⽤,如数据 仓库、专家系统、知识管理系统等   2.成熟阶段:21世纪前10年,web2.0应⽤发展,⾮结构化数据⼤量产⽣,传统处理⽅法难以应对,带动了⼤数据技术的快速突破,⼤数据解 决⽅案逐渐⾛向成熟,形成了并⾏计算与分布式系统两⼤核⼼技术,⾕歌的GFS和MapReduce等⼤数据技术受到追捧,Hadoop平台开始⼤⾏其 道。   3.⼤规模应⽤期:2010年以后,⼤数据应⽤渗透各⾏业,数据驱动决策,信息社会智能化程度⼤幅度提⾼ ⼆,⼤数据概念:"4个V" 1)数据量⼤(volume) 2)数据类型繁多(variety) 3)处理速度快(velocity) 4)价值密度低(value) 三,⼤数据影响: 1)⼤数据对科学研究的影响:   1.实验科学>2.理论科学>3.计算科学>4.数据密集型科学 2)⼤数据对思维⽅式的影响:   1.全样⽽⾮抽样   2.效率⽽⾮精确   3.相关⽽⾮因果 3)⼤数据对社会发展的影响:   1.⼤数据决策成为⼀种新的决策⽅式   2.⼤数据应⽤促进信息技术与各⾏业的深度融合   3.⼤数据开发推动新技术和新应⽤的不断涌现 四,⼤数据的应⽤:   ⼤数据⽆处不在,包括⾦融、汽车、餐饮、电信、能源、体育和娱乐等在内的社会各⾏各业都已经融⼊了⼤数据的印记 五,⼤数据关键技术: 技术层 ⾯ 功能 数据采 集与预 处理 利⽤ETL⼯具将分布的、异构数据源中的数据,如关系数据,平⾯数据⽂件等,抽取到临时中间层后进⾏清洗、转换、集成,最后加载 到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;也可以利⽤⽇志采集⼯具(如Flume、kafka等)把实时采集的数据作 为流计算系统的输⼊,进⾏实时处理分析  数据存 储和管 理 利⽤分布式⽂件系统、数据仓库、关系数据库、nosql数据库、云数据库等,实现对结构化、半结构化和⾮结构化和⾮结构化海量数据的 存储和管理 数据处 理与分 利⽤分布式并⾏编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进⾏可视化呈现,帮 助⼈们更好地理解数据、分析数据 析 数据安 全和隐 私保护 在从⼤数据中挖掘潜在的巨⼤商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个⼈隐私和数据安全 六,⼤数据计算模式: ⼤数据计算 模式 解决问题 代表产品 批处理计算 针对⼤规模数据的批量处理 MapReduce、Spark等 流计算 针对流数据的实时计算 Storm、S4、Flume、Streams、Puma、DStream、SuperMario、银河流 数据处理平台等 图计算 针对⼤规模图结构数据的处 理 Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等 查询分析计 算 ⼤规模数据的存储管理和查 询分析 Dremel、Hive、Cassandra、Impala等 七,⼤数据产业:   ⼤数据产业是指⼀切与⽀撑⼤数据组织管理和价值发现相关的企业经济活动的集合。   ⼤数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应⽤层。 ⼋,⼤数据与云计算、物联⽹: ⼀)云计算: 1)云计算概念:云计算实现了通过⽹络提供可伸缩的、廉价的分布式计算能⼒,⽤户只需要在具备⽹络接⼊条件的地⽅,就可以随时随地地获得 所需的各种IT资源 2)元计算的关键技术:虚拟化、分布式存储、分布式计算、多租户等。 3)云计算数据中⼼:是⼀整套复杂的设施,包括⼑⽚服务器、宽带⽹络连接、环境控制设备、监控设备⼀级耕种安全装置等。数据中⼼是云计算 的重要载体,为云计算提供计算、存储、宽带等各种硬件资源,为各种平台和应⽤提供运⾏⽀撑环境。 4)云计算的应⽤:在电⼦政务、医疗、卫⽣、教育、企业等领域的应⽤不断深化,对提⾼*服务⽔平促进产业转型升级和培育发展


网友评论