大数据(一) --大数据概述

时间:2022-09-16 19:53:07

大数据兴起的背景 --第三次信息化浪潮

​​大数据(一) --大数据概述

技术支撑

  • 硬盘存储容量增加;

  • CPU计算速度提高;

  • 网络带宽不断增加。
    大数据(一) --大数据概述

数据产生方式的变革。

大数据(一) --大数据概述
感知式系统阶段物联网的大规模普及。(物联网底层是感知层:RFID,摄像头,传感器)

物联网的兴起让我们迎来了大数据时代。

什么是大数据?

大数据是一个仁者见仁, 智者见智的宽泛概念. 关于大数据的定义有很多, 我们不妨拿来几个品读品读:

亚马逊大数据科学家John Rauser 认为大数据是任何超过一台计算机处理能力的数据量. (Big data is any amount of data that’ s too big to be handled by one computer)

在《大数据: 下一个创新, 竞争和生产率的前沿》中, 麦肯锡对大数据定义为: 所谓大数据, 主要是指无法在一定时间内用传统数据库工具对其内容进行获取, 存储, 管理和分析的数据集.

研究机构Gartner定义: 大数据是指需要新处理模式才能具有更强的决策力, 洞察发现力和流程优化能力的海量, 高增长率和多样化的信息资产.

*对大数据的定义则简单明了: 大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。 就是说大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。

大数据大牛张富刚前辈说: 大数据是在短时间内快速地产生海量的, 多种多样的, 有价值的数据.

无论哪种定义, 都体现出了大数据的四大特性, 即4V–Volume(体量大),Velocity(速度快),Variety(多样化),Value(价值). 当然, 也有人认为是5V特性, 第五个V是Veracity(真实性).

大数据特性

大数据(一) --大数据概述

  • 数据体量巨大. 数据量从TB级别跃升至PB

  • 处理速度快. 需对数据实时分析

  • 数据类别大. 由大量非结构化数据和少数结构化, 半结构化数据组成.

  • 价值密度低,商业价值高.

  • 数据真实性难辨识.

大数据的几个来源

  • 来自人类活动. 人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所产生的各类数据,包括微博、病人医疗记录、文字、图形、视频等信息。

  • 来自计算机. 各类计算机信息系统产生的数据,以文件、数据库、多媒体等形式存在,也包括审计、日志等自动生成的信息。

  • 来自物理世界. 各类数字设备、科学实验与观察所采集的数据。 如摄像头所不断产生的数字信号,医疗物联网不断产生的人的各项特征值,气象业务系统采集设备所收集的海量数据等。

大数据带来思维方式的转变:

  • 全样而非抽样. 可以存储全部数据,而不用再去做抽样分析;

  • 效率而非精度. 抽样由于样本选取的不同精度有发生变化,全样分析误差是多少就是多少,不会被放大;

  • 相关而非因果. 只关注相关性,而非因果关系。

关键技术:

     两大核心:分布式存储,分布式处理。
  • 分布式存储:分布式数据库BigTable,分布式文件系统GFS

  • 分布式处理:分布式并行处理技术MapReduce

典型计算模式

  • 批处理计算(MapReduce,Spark实时性好于MapReduce)
  • 流计算——实时处理,实时响应,否则失去商业价值(S4,Storm,Flume)
  • 图计算——社交网络类数据(Google Pregel)
  • 查询分析计算(Google Dremel,Hive,Cassandra)
    大数据(一) --大数据概述