初识大数据,一定要知道的知识!

时间:2024-04-12 20:12:26

一、大数据的发展历程

第一阶段:萌芽期(20世纪90年代至21世纪初)

随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和只是管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。

第二阶段:成熟期(21世纪前10年)

Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS 和 MapReduce 等大数据技术受到追捧,Hadoop 平台开始大行其道。

第三阶段:大规模应用期(2010年以后)

大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高

随着数据价值时代的来临,2016年左右,已经属于移动互联网时代了。大数据平台的普及,也催生了更多的大数据应用场景。新问题也不断的产生,如:为了快速实现业务需求,烟囱式开发模式导致了不同业务线的数据是完全割裂的,这样造成了大量数据指标的重复开发,不仅研发效率低、同时还浪费了存储和计算资源,使得大数据的应用成本越来越高。但在此时,马云喊出了「数据中台」的概念,「One Data,One Service」的口号开始响彻大数据界。数据中台的核心思想是:避免数据的重复计算,通过数据服务化,提高数据的共享能力,赋能业务。

初识大数据,一定要知道的知识!
数据湖:通过原始数据分类存储到不同的数据池,然后在各个数据池中将数据整合转化为容易分析的统一存储格式进行存储。这种方式极大的方便用户对数据进行分析和利用,从而产生经济效益。

二、大数据的核心概念

  • 大数据特征变化

从刚开始的 3V(Volume、Variety 和 Velocity) 到后来的 4V(Volume、Variety 、 Velocity 和 Value) 到现如今的5V、6V、7V等等

这里我展示了5V的特征
初识大数据,一定要知道的知识!
大量化Volume :非结构数据的超大规模和增长,总数据的80~90% ,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍。

价值化Value :大量的不相关信息,对未来趋势与模式的可预测分析,深度复杂分析(机器学习,人工智能vs传统商务智能)

多样化Variety :大数据的异构和多样化,很多不同的形式(文本 图像 视频 机器数据),无模式或者模式不明显,不连贯的语法或句义

快速化Velocity: 实时分析而非批量式分析,数据输入,处理与丢弃,立竿见影而非事后见效。

真实性Veracity:大数据中的内容是与真实世界中的发生息息相关的,研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。

三、大数据的影响

  • 大数据对科学研究的影响

1、第一种范式:实验科学 (在最初的科学研究阶段,人类采用实验来解决一些科学问题,著名的比萨斜塔实验就是一个典型实例)

2、第二种范式:理论科学 (随着科学的进步,人类开始采用各种数学、几何、物理等理论。构建问题模型和解决方案)

3、第三种范式:计算科学 (随着1946年人类历史上第一台计算机ENLAC 的诞生,人类社会开始步入计算机时代,科学研究也进了一个以“计算”为中心的全新时期)

4、第四种范式:数据秘籍型科学 (随着数据的不断积累,其宝贵价值日益得到体现,物联网和云计算的出现,更是促成了事物发展从量变到质变的转变,使人类社会开启了全新的大数据时代)

虽然第三种方式和第四种方式都是利用计算机来进行计算,但是二者还是有本质的区别。在第三种研究范式中,一般是先提出可能的理论,再搜集数据,然后通过计算来验证。而对于第四种研究范式,则是先有了大量数据已知的数据,然后通过计算得出之前未知的理论。

  • 大数据对思维方式的影响

来自维克多 · 迈尔 · 舍恩伯格 在《大数据时代:生活、工作与思维的大变革》

1、全样而非抽样

2、效率而非精确

3、相关而非因果

四、大数据的核心技术

听到大数据当然离不开 Hadoop ,而Hadoop有三个核心分别为:HDFS、MapReduce、Yarn(Hadoop 2.0版本推出)

  • Hadoop

Hadoop 的介绍

1、Hadoop 最早起源于Nutch项目, Nutch 的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

2、2003年、2004年谷歌发表了三篇论文为该问题提供了解决方案。(俗称三驾马车)有兴趣的人可以去了解下

——分布式文件系统(GFS) ,可用于处理海量网页的存储

初识大数据,一定要知道的知识!

——分布式计算框架 (MapReduce) ,可用于处理海量网页的索引计算问题

初识大数据,一定要知道的知识!

3、Nutch 的开发人员完成了相应的开源实现 HDFS 和 MAPREDUCE , 并从Nutch项目中剥离成独立项目 Hadoop , 到2008年1月,Hadoop 称为 Apache *项目。

狭义上来说,hadoop 就是单独指代 hadoop 这个软件

  • HDFS : 分布式文件系统
  • MapReduce : 分布式计算系统
  • Yarn : 分布式样式集群资源管理

广义上来说,hadoop 指代大数据的一个生态圈,包括很多其他的软件

初识大数据,一定要知道的知识!

  • Hadoop 2.x 版本架构模型介绍

第一种: NameNode 与 ResourceManager 单节点架构模型

初识大数据,一定要知道的知识!

文件系统核心模块:

NameNode: 集群当中的主节点,主要用于管理集群当中的各种数据。

SecondaryNameNode: 主要能用于hadoop 当中元数据信息的辅助管理。

DataNode : 集群当中的从节点,主要用于存储集群当中的各种数据。

数据计算核心模块:

ResourceManager : 接收用户的计算请求任务,并负责集群的资源分配。

NodeManager : 负责执行主节点APPmaser分配的任务。

第二种:NameNode 单节点与ResourceManager高可用架构模型

初识大数据,一定要知道的知识!

第三种:NameNode 高可用与ResourceManager 单节点架构模型

初识大数据,一定要知道的知识!

第四种: NameNode 与 ResourceManager 高可用架构模型

初识大数据,一定要知道的知识!

ZKFC:监控NameNode 。

Journal Node :同步NameNode 信息。