文件名称:大数据的发展历史.pdf
文件大小:137KB
文件格式:PDF
更新时间:2022-12-24 15:22:27
文档资料
⼤数据的发展历史 ⼤数据将近30年的发展历史,经历⼏多阶段。 1 启蒙阶段:数据仓库的出现 启蒙阶段:数据仓库的出现 20世纪90年代,商业智能(也就是我们熟悉的BI系统)诞⽣,它将企业已有的业务数据转化成为知识,帮助⽼板们进⾏经营决策。⽐如零 售场景中:需要分析商品的销售数据和库存信息,以便制定合理的采购计划。 显然,商业智能离不开数据分析,它需要聚合多个业务系统的数据(⽐如交易系统、仓储系统),再进⾏⼤数据量的范围查询。⽽传统数据 库都是⾯向单⼀业务的增删改查,⽆法满⾜此需求,这样就促使了数据仓库概念的出现。 传统的数据仓库,第⼀次明确了数据分析的应⽤场景,并采⽤单独的解决⽅案去实现,不依赖业务数据库。 2 技术变⾰: 技术变⾰:Hadoop诞⽣ 诞⽣ 2000年左右,PC互联⽹时代来临,同时带来了海量信息,很典型的两个特征: 数据规模变⼤:Google、雅虎等互联⽹巨头⼀天可以产⽣上亿条⾏为数据。 数据类型多样化:除了结构化的业务数据,还有海量的⽤户⾏为数据,以图像、视频为代表的多媒体数据。 很显然,传统数据仓库⽆法⽀撑起互联⽹时代的商业智能。2003年,Google公布了3篇⿐祖型论⽂(俗称「⾕歌3驾马车」),包括:分 布式处理技术MapReduce,列式存储BigTable,分布式⽂件系统GFS。这3篇论⽂奠定了现代⼤数据技术的理论基础。 苦于Google并没有开源这3个产品的源代码,⽽只是发布了详细设计论⽂。2005年,Yahoo资助Hadoop按照这3篇论⽂进⾏了开源实 现,这⼀技术变⾰正式拉开了⼤数据时代的序幕。 Hadoop相对于传统数据仓库,有以下优势: 完全分布式,可以采⽤廉价机器搭建集群,完全可以满⾜海量数据的存储需求。 弱化数据格式,数据模型和数据存储分离,可以满⾜对异构数据的分析需求。 随着Hadoop技术的成熟,2010年的Hadoop世界⼤会上,提出了「数据湖」的概念。 数据湖是⼀个以原始格式存储数据的系统。 企业可以基于Hadoop构建数据湖,将数据作为企业的核⼼资产。由此,数据湖拉开了Hadoop商业化的⼤幕。 3 数据⼯⼚时代:⼤数据平台兴起 数据⼯⼚时代:⼤数据平台兴起 商⽤Hadoop包含上⼗种技术,整个数据研发流程⾮常复杂。为了完成⼀个数据需求开发,涉及到数据抽取、数据存储、数据处理、构建数 据仓库、多维分析、数据可视化等⼀整套流程。这种⾼技术门槛显然会制约⼤数据技术的普及。 此时,⼤数据平台(平台即服务的思想,PaaS)应运⽽⽣,它是⾯向研发场景的全链路解决⽅案,能够⼤⼤提⾼数据的研发效率,让数据 像在流⽔线上⼀样快速完成加⼯,原始数据变成指标,出现在各个报表或者数据产品中。 4 数据价值时代:阿⾥提出数据中台 数据价值时代:阿⾥提出数据中台 2016年左右,已经属于移动互联⽹时代了,随着⼤数据平台的普及,也催⽣了很多⼤数据的应⽤场景。 此时开始暴露出⼀些新问题:为了快速实现业务需求,烟囱式开发模式导致了不同业务线的数据是完全割裂的,这样造成了⼤量数据指标的 重复开发,不仅研发效率低、同时还浪费了存储和计算资源,使得⼤数据的应⽤成本越来越⾼。 极富远见的马云爸爸此时喊出了「数据中台」的概念,「One Data,One Service」的⼝号开始响彻⼤数据界。数据中台的核⼼思想是: 避免数据的重复计算,通过数据服务化,提⾼数据的共享能⼒,赋能业务。