文件名称:什么叫大数据大数据的概念.pdf
文件大小:521KB
文件格式:PDF
更新时间:2022-12-24 11:25:41
文档资料
什么叫⼤数据⼤数据的概念 1、⼤数据定义 对于"⼤数据"(Big data)研究机构Gartner给出了定义,"⼤数据"是需要新处理模式才能具有更强 的决策⼒、洞察发现⼒和流程优化能⼒ 的海量、⾼增长率和多样化的信息资产。 技术的战略意义不在于掌握庞⼤的数据信息,⽽在于对这些含有意义的数据进⾏专业化处理。换⾔之,如果把⽐作⼀种产业,那么这种产业 实现盈利的关键,在于提⾼对数据的"加⼯能⼒",通过"加⼯"实现数据的"增值"。 从技术上看,⼤数据与的关系就像⼀枚硬币的正反⾯⼀样密不可分。⼤数据必然⽆法⽤单台的计算机进⾏处理,必须采⽤分布式。它的特⾊ 在于对进⾏分布式数据挖掘,但它必须依托的、和、。 随着的来临,⼤数据(Big data)也吸引了越来越多的关注。《》的分析师团队认为,⼤数据(Big data)通常⽤来形容⼀个公司创造的⼤ 量和,这些数据在下载到⽤于分析时会花费过多时间和⾦钱。常和云计算联系到⼀起,因为实时的⼤型分析需要像MapReduce⼀样的框架 来向数⼗、数百或甚⾄数千的电脑分配⼯作。 ⼤数据需要特殊的技术,以有效地处理⼤量的容忍经过时间内的数据。适⽤于⼤数据的技术,包括⼤规模(MPP)、数据挖掘电⽹、、分 布式、、互联⽹和可扩展的存储系统。 最⼩的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它们按照1024(2 的⼗次⽅)来计算: 8bit= 1Byte 1KB= 1,024 Bytes 1MB= 1,024 KB = 1,048,576 Bytes 1GB= 1,024 MB = 1,048,576 KB 1TB= 1,024 GB = 1,048,576 MB 1PB= 1,024 TB = 1,048,576 GB 1EB= 1,024 PB = 1,048,576 TB 1ZB= 1,024 EB = 1,048,576 PB 1YB= 1,024 ZB = 1,048,576 EB 1BB= 1,024 YB = 1,048,576 ZB 1NB= 1,024 BB = 1,048,576 YB 1 DB = 1,024 NB = 1,048,576 BB 2 1887–1890年 赫尔曼·霍尔瑞斯美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的⼈⼝普查数据发明了⼀台电动器来读取卡⽚上的洞数,该设备让美国⽤ ⼀年时间就完成了原本耗时8年的⼈⼝普查活动,由此在全球范围内引发了数据处理的新纪元。 1935–1937年 美国总统利⽤开展了美国*最雄⼼勃勃的⼀项数据收集项⽬,IBM最终赢得竞标,即需要整理美国的2600万个员⼯和300万个雇主的记 录。总统候选⼈阿尔夫兰登scoffs嘲笑地说,"要整理如此繁多的,还必须⽽调⽤⼤规模的现场调查⼈员去核实那些信息不完整的⼈员记 录。" 1943年 ⼀家英国⼯⼚为了破译⼆战期间的纳粹密码,让⼯程师开发了系列开创性的能进⾏⼤规模数据处理的机器,并使⽤了第⼀台可编程的电⼦计算 机进⾏运算。该计算机被命名为"巨⼈",为了找出拦截信息中的潜在模式,它以每秒钟5000字符的速度读取纸卡——将原本需要耗费数 周时间才能完成的⼯作量压缩到了⼏个⼩时。破译德国部队前⽅阵地的信息以后,帮助盟军成功登陆了诺曼底。 1997年 研究员迈克尔·和⼤卫·沃斯⾸次使⽤"⼤数据"这⼀术语来描述的挑战:⽣成⼤量的信息——在考克斯和埃尔斯沃斯按案例中,周围的⽓流 ——是不能被处理和可视化的。数据集通常之⼤,超出了、,甚⾄远程磁盘的承载能⼒。"他们称之为"⼤数据问题。" 2002年 在9/11袭击后,美国*为阻⽌*已经涉⾜⼤规模数据挖掘。前约翰·波因德克斯特领导国防部整合现有*的数据集,组建⼀个⽤ 于筛选通信、犯罪、教育、⾦融、医疗和旅⾏等记录来识别可疑⼈的⼤数据库。⼀年后国会因担忧公民⽽停⽌了这⼀项⽬。 2004年 9/11委员会呼吁反恐机构应统⼀组建"⼀个基于⽹络的信息共享系统",以便能快处理应接不暇的数据。到2010年,的30000名员⼯将 拦截和存储17亿年电⼦邮件、电话和其它通讯⽇报。与此同时,零售商积累关于客户购物和个⼈习惯的⼤量数据,沃尔玛⾃吹已拥有⼀个容 量为460字节的缓存器——⽐当时互联⽹上的数据量还要多⼀倍。 2007–2008年 随着社交⽹络的激增,技术博客和专业⼈⼠为"⼤数据" 概念注⼊新的⽣机。"当前世界范围内已有的⼀些其他⼯具将被⼤量数据和应⽤ 所取代"。《》的认为当时处于⼀个"理论终结时代"。⼀些*机构和美国的顶尖计算机科学家声称,"应该深⼊参与⼤数据计算的开发和 部署⼯作,因为它将直接有利于许多任务的实现。" 2009年1⽉ 印度*建⽴印度唯⼀的管理局,对12亿⼈的指纹、照⽚