大数据特征与发展历程.pdf

时间:2022-12-24 15:18:58
【文件属性】:

文件名称:大数据特征与发展历程.pdf

文件大小:259KB

文件格式:PDF

更新时间:2022-12-24 15:18:58

文档资料

⼤数据特征与发展历程 ⼤数据(big data)是这样的数据集合:数据量增长速度极快,⽤常规的数据⼯具⽆法在⼀定的时间内进⾏采集、处理、存储和计算的数据集 合。 作者认为具有以下五⼤特征(4V+1O)的数据才称之为⼤数据,即: 数据量⼤(Volume):第⼀个特征是数据量⼤,包括采集、存储和计算的量都⾮常⼤。⼤数据的起始计量单位⾄少是P(1000个T)、E(100 万个T)或Z(10亿个T)。 类型繁多(Variety):第⼆个特征是种类和来源多样化。包括结构化、半结构化和⾮结构化数据,具体表现为⽹络⽇志、⾳频、视频、图⽚、 地理位置信息等等,多类型的数据对数据的处理能⼒提出了更⾼的要求。 价值密度低(Value):第三个特征是数据价值密度相对较低,或者说是浪⾥淘沙却⼜弥⾜珍贵。随着互联⽹以及物联⽹的⼴泛应⽤,信息感 知⽆处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强⼤的机器算法来挖掘数据价值,是⼤数据时代最需要解决的问题。 速度快时效⾼(Velocity):第四个特征数据增长速度快,处理速度也快,时效性要求⾼。⽐如搜索引擎要求⼏分钟前的新闻能够被⽤户查询 到,个性化推荐算法尽可能要求实时完成推荐。这是⼤数据区别于传统数据挖掘的显著特征。 数据是在线的(Online):数据是永远在线的,是随时能调⽤和计算的,这是⼤数据区别于传统数据最⼤的特征。现在我们所谈到的⼤数据不 仅仅是⼤,更重要的是数据变的在线了,这是互联⽹⾼速发展背景下的特点。⽐如,对于打车⼯具,客户的数据和出租司机数据都是实时在 线的,这样的数据才有意义。如果是放在磁盘中⽽且是离线的,这些数据远远不如在线的商业价值⼤。 关于⼤数据特征⽅⾯,特别要强调的⼀点是数据是在线的,因为很多⼈认为数据量⼤就是⼤数据,往往忽略了⼤数据的在线特性。数据只有 在线,即数据在与产品⽤户或者客户产⽣连接的时候才有意义。如某⽤户在使⽤某互联⽹应⽤时,其⾏为及时的传给数据使⽤⽅,数据使⽤ ⽅通过某种有效加⼯后(通过数据分析或者数据挖掘进⾏加⼯),进⾏该应⽤的推送内容的优化,把⽤户最想看到的内容推送给⽤户,也提升 了⽤户的使⽤体验。 ⼤数据发展过程的重⼤事件 2005年Hadoop项⽬诞⽣。 Hadoop其最初只是雅虎公司⽤来解决⽹页搜索问题的⼀个项⽬,后来因其技术的⾼效性,被Apache Software Foundation公司引⼊并成为开源应⽤。Hadoop本⾝不是⼀个产品,⽽是由多个软件产品组成的⼀个⽣态系统,这些软件产品共 同实现全⾯功能和灵活的⼤数据分析。从技术上看,Hadoop由两项关键服务构成:采⽤Hadoop分布式⽂件系统(HDFS)的可靠数据存储 服务,以及利⽤⼀种叫做MapReduce技术的⾼性能并⾏数据处理服务。这两项服务的共同⽬标是,提供⼀个使对结构化和复杂数据的快 速、可靠分析变为现实的基础。 2008年末,"⼤数据"得到部分美国知名计算机科学研究⼈员的认可,业界组织计算社区联盟 (Computing Community Consortium),发表了⼀份有影响⼒的⽩⽪书《⼤数据计算:在商务、科学和社会领域创建⾰命性突破》。它使⼈们的思维不仅局限于数据 处理的机器,并提出:⼤数据真正重要的是新⽤途和新见解,⽽⾮数据本⾝。此组织可以说是最早提出⼤数据概念的机构。 2009年印度*建⽴了⽤于⾝份识别管理的⽣物识别数据库,联合国全球脉冲项⽬已研究了对如何利⽤⼿机和社交⽹站的数据源来分析预 测从螺旋价格到疾病爆发之类的问题。 2009年中,美国*通过启动Data.gov⽹站的⽅式进⼀步开放了数据的⼤门,这个⽹站向公众提供各种各样的*数据。该⽹站的超过 4.45万量数据集被⽤于保证⼀些⽹站和智能⼿机应⽤程序来跟踪从航班到产品召回再到特定区域内失业率的信息,这⼀⾏动激发了从肯尼 亚到英国范围内的*们相继推出类似举措。 2009年,欧洲⼀些领先的研究型图书馆和科技信息研究机构建⽴了伙伴关系致⼒于改善在互联⽹上获取科学数据的简易性。 2010年2⽉,肯尼斯库克尔在《经济学⼈》上发表了长达14页的⼤数据专题报告《数据,⽆所不在的数据》。库克尔在报告中提到:"世 界上有着⽆法想象的巨量数字信息,并以极快的速度增长。从经济界到科学界,从*部门到艺术领域,很多⽅⾯都已经感受到了这种巨量 信息的影响。科学家和计算机⼯程师已经为这个现象创造了⼀个新词汇:"⼤数据"。库克尔也因此成为最早洞见⼤数据时代趋势的数据科 学家之⼀。 2011年2⽉,IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页⽂字量)的数据量,并在美国著名智⼒竞赛电视节⽬《危险边 缘》"Jeopardy"上击败两名⼈类选⼿⽽夺冠。后来纽约时报认为这⼀刻为⼀个"⼤数据计算的胜利。" 2011年5⽉,全球知名


网友评论