大数据 :指数据集的大小超过了现有典型的数据库软件和工具的处理能力的数据。
大数据的主要特点: 海量化(Volume)多样化(Variety)快速化(Velocity) 高价值(Value)
海量化: 数据量从TB到PB级别
多样化: 数据类型复杂,超过80%的数据是非结构化的
快速化: 数据量在持续增加(两位数的年增长率) 数据的处理速度要求高
高价值: 在海量多样数据的快速分析下能够发挥出更高的数据价值
大数据能做什么:海量数据背景下
快速查询 - 全量查询
数据存储 - 量大、文件大
快速计算 - 对比传统方案
实时计算 - 最新数据
数据挖掘 - 新价值
海量数据快速查询 : 在海量数据的背景下,进行数据的快速查找、快速提取。(快速指 查找或提取效率3秒内)
例如:每个用户查询上月手机流量记录或上月通话明细。都是在海量用户 中查询某一个人的记录,三秒内出结果。
海量数据存储 : A:大数据能够存储海量数据 大数据时代数据量巨大,1TB=1024*1G 约26万首歌(一首歌4M) 1PB=1024*1024*1G 约2.68亿首歌 (一首歌4M)
B:大数据能够存储单个大文件。 目前市面上最大的单个硬盘大小约为10T左右。若有一个文件20T,将 无法存储。大数据可以存储单个20T文件,甚至更大。
海量数据快速计算(离线): 能够在海量数据的基础上进行快速计算,这里的“快速”是与传统计算方案对比。海量数据背景下,使用传统方案计算可能需要一星期时间。使用大数据 技术计算只需要30分钟。
例如:计算全国移动用户(全国数据量大),全年内通话总时间(每个人 一年通话总和)大于1万分钟的人,按照从多到少顺序。
海量数据实时计算(实时): 在海量数据的背景下,对于实时生成的最新数据,需要立刻、马上传递 到大数据环境,并立刻、马上进行相关业务指标的分析,并把分析完的 结果立刻、马上展示给用户或者领导。
例如:欠费的手机充话费,充值完成后,手机几秒钟后就能使用。 例如:双十一实时交易大屏
挖掘前所未有的新的价值点: 原始企业内数据无法计算出的结果,使用大数据能够计算出。
例如:啤酒和尿不湿。超市原始数据没有计算出两者之间的关系,使用大数 据计算后,发现将两者放的很近后,两者的销量都会有有大幅提升。 原因在于,国外大部分买尿不湿的都是男性,男性喜好和啤酒,买尿 不湿时顺便那些啤酒很惬意。
挖掘(算法)有价值的数据 : 在海量数据背景下,使用数据挖掘算法,挖掘有价值的指标(不使用这 些算法无法算出) 例如:通过数据挖掘算法计算花的种类。 通过算法识别出这些花是玫瑰花?百合?茉莉花?菊花?桂花?
大数据内容 简单可以称为动物园