文件名称:对于大数据的认识.pdf
文件大小:239KB
文件格式:PDF
更新时间:2022-12-24 15:43:15
文档资料
对于⼤数据的认识 对⼤数据的简单认识 ⼤家好我是皈⼼,是个刚刚⾛上⼤数据这个领域的标题萌新,希望各位⼤佬多多指教。 这是我的第⼀个博客来说说⾃⼰对⼤数据的认识,对⼤数据创意环境的构想以及⾃⼰在第⼀次实训中的感受有些不对的地⽅还请见谅。 ⼀,对⼤数据的认识 "⼤数据"的由来 2008年9⽉4⽇,英国《⾃然》杂志刊登了⼀个名为"Big Data"的专辑,⾸次提出⼤数据概念,该专辑对如何研究PB级容量的⼤数据 流,以及⽬前正在制订的、⽤以最为充分地利⽤海量数据的最新策略进⾏了探讨。2011、2012年达沃斯世界经济论坛将⼤数据作为专题 讨论的主题之⼀,发布了《⼤数据、⼤影响:国际发展新的可能性》等系列报告。 2011年以来,中国成⽴了⼤数据委员会,研究⼤数据中的科学与⼯程问题,科技部《中国云科技发展"⼗⼆五"专项规划》和⼯信部《物 联⽹"⼗⼆五"发展规划》等都把⼤数据技术作为⼀项重点予以⽀持。业界普遍认为,2013年是中国"⼤数据元年"。 "⼤数据"的内涵 【定义】 继物联⽹、云计算之后,"⼤数据"已迅速成为⼤家争相传诵的热门科技概念。"⼤数据"作为信息社会发展的⼀个新⽣事物,⽬前尚处在 逐渐被认识、被应⽤的初始阶段,⽆论是学术界还是IT⾏业对⼤数据的理解各有侧重,尚未形成⼀套完整的理论体系。全球最具权威的IT研 究与顾问咨询公司Gartner将"⼤数据"定义为"需要新处理模式才能具有更强的决策⼒、洞察发现⼒和流程优化能⼒的海量、⾼增长率和 多样化的信息资产"。麦肯锡全球研究所给出的定义是:⼀种规模⼤到在获取、存储、管理、分析⽅⾯⼤⼤超出了传统数据库软件⼯具能⼒ 范围的数据集合。《互联⽹周刊》则认为,"⼤数据是通过对海量数据进⾏分析,获得有巨⼤价值的产品和服务,或深刻的洞见,最终形成 变⾰之⼒"。国家信息中⼼有关专家将"⼤数据"⼴义地界定为,"我国现代信息化进程中产⽣的和可被利⽤的海量数据集合,是当代信息 社会的数据资源总和,是信息时代的全数据,既包括互联⽹数据,也包括*数据和⾏业数据。" 【属性】 随着⼤数据的发展,⼤数据的内涵已不仅仅局限于技术维度,⽽是在演变过程中不断扩展,形成了⼀个语义更加丰富、维度更加多元的综合 性的概念。 ⼤数据是⼀类海量信息的数据集,是⼀项对海量数据进⾏快速处理并获取有价值信息的技术,更是⼀种新的认知世界和改造世界的思维⽅式 和能⼒。⼤数据开启了⼀个以数据为基本元素的、以数据为战略资产的时代,在⼤数据时代掌握了数据就意味着拥有了核⼼竞争⼒。⼤数据 时代让社会朝着更加个性化、*化、⾃由化、开 1."4V"特征 ⼤数据在诞⽣之初仅仅是⼀个IT ⾏业内的技术术语,业界通常⽤4个V(即Volume、Variety、Value、Velocity)来概括⼤数据的内容特 征。 ⼀.是数据体量巨⼤(Volume)。国际数据公司(IDC)的研究结果表明,截⾄2012年,⼈类⽣产的所有印刷材料的数据量是200PB。IBM研 究称,整个⼈类⽂明所获得的全部数据中,有90%是过去两年内产⽣的。⽽到了2020年,全世界所产⽣的数据规模将达到今天的44倍。当前, 典型个⼈计算机硬盘的容量为TB量级,⽽⼀些⼤企业的数据量已经接近EB量级。【注:计算机存储单位⼀般⽤Byte、KB、MB、GB、 TB、PB、EB、ZB、YB表⽰,它们之间的换算关系是:1KB=1024B,1MB=1024KB,1GB=1024MB,1TB=1024GB……以此类 推】 ⼆.是数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和⾮结构化数据。相对于以往便于存储的以⽂本为主的结构化 数据,⾮结构化数据越来越多,包括⽹络⽇志、⾳频、视频、图⽚、地理位置信息等,这些多类型的数据对数据的处理能⼒提出了更⾼要 求。 ⼤数据时代,物联⽹、云计算、移动互联⽹、车联⽹、⼿机、平板电脑、PC以及各种各样的传感器,⽆⼀不是数据来源或者承载的⽅式。新 出现的数据类型有以下⼏类: 1、以模拟形式存在的记录,或者以数据形式存在但是存贮在本地,不是公开数据资源,没有开放给互联⽹⽤户,例如⾳乐、照⽚、视频、 监控录像等影⾳资料。 2、移动互联⽹出现后,移动设备传感器收集的⼤量的⽤户点击⾏为数据。 3、电⼦地图产⽣的⼤量的数据流数据。这些数据与传统数据反映⼀个属性或⼀个度量值相区别,代表着⼀种⾏为、⼀种习惯。 4、⼤量的互联⽹⽤户创造出海量的社交⾏为数据,反映出⼈们⾏为特点和⽣活习惯。 5、电商户崛起产⽣的⼤量⽹上交易数据,包含⽀付数据、查询⾏为、物流运输、购买喜好、点击顺序、评价⾏为等,其实质是信息流和资 ⾦流数据。 6、互联⽹搜索引擎上⽤户的搜索⾏为和提问⾏为聚集的海量数据。 三.是价值密度低(Value)。价值密度的⾼低与数据总量的⼤⼩成反⽐。以视频为例,