Hadoop以及组件介绍

一、背景介绍

在接触过大数据相关项目的时候常常都会听到Hadoop这个东西，简单来说，他是一个用分布式计算来处理大数据的开源软件，下面包含了许多的组件和子项目，这篇文章将会介绍Hadoop的原理以及一些组件的应用。

二、准备工作

1、确认储存规模

有很多的大数据项目其实数据量跟本没这么大，跟本不需要到使用Hadoop这类的大数据软件，所以，第一步应该是先确认数据量有多大，真的MySQL跑的太久再去使用Hadoop就好。

2、确认数据类型

除了结构化数据以外，现在有些大数据项目需要处理的是一些非结构化数据，例如文本、音频、图像、视频之类的，针对这些非结构化的数据，需要事先做处理，再用相对应的软件进行储存。

3、确认数据源

数据源非常重要，首先要先确认数据是否可获取、可用，例如微信聊天记录这种的根本就获取不了，而且会触犯到隐私。有些数据需要先做持久化再导入到数据库内储存，如何获取想要的数据有时候不是直接从数据库里抓这么简单，在获取数据源的时候，也需要考虑数据的质量，否则会提高未来使用的难度。

三、Hadoop介绍

Hadoop的核心为HDFS（分布式文件系统）和MapReduce（离线计算框架）。简单来说，HDFS就是将要储存的文件分散在不同的硬盘上，并记录他们的位置，而MapReduce就是将计算任务分配给多个计算单元，下面针对这两个核心再做进一步的说明。

HDFS

HDFS已经成为现在大数据的储存标准，他适合储存一次写入，多次读取的数据，并且他有自动检错、快速回复数据的功能，能够避免数据因为硬盘损坏而丢失的危险。

HDFS是由DataNode和NameNode组成的，DataNode负责储存数据，而NameNode负责管理数据，一个NameNode对应多个DataNode，NameNode记录着每个DataNode储存的数据内容，并曝露给上层系统调用，也会根据上层的指令对DataNode进行增、删、复制。

MapReduce

MapReduce是将计算任务分配给数据就近的处理节点，进行完运算后再合并导入结果，能很好的去进行大量数据的调取，但是延时较高，不适合处理实时流数据。

MapReduce可以分为Map和Reduce两个处理步骤。首先Map将用户输入的指令解析出一个个的Key/Value，然后再将转化成一组新的KV值，将原本的任务拆解成小的而且是临近数据的，并且确保这些运算任务彼此不会影响。而Reduce则是将这些运算的结果汇总起来，将结果写入。

另外YARN和Zookeepr都是用来管理的，YARN是面对计算资源的管理，而Zookeeper是面对服务器集群的管理。

YARN：资源管理框架，用来管理和调度CPU、内存的资源，避免所有的计算资源被某些任务大量占用，有点像是云管理平台可以创造不同的容器和虚拟机，并将这些硬件资源按用户的意愿分配给计算任务。

Zookeeper：集用来做群管理，跟微服务里的功能相似，可以在集群里面选出一个leader，并保证集群里面服务器的一致性、可靠性和实时性。

四、Hadoop常用组件介绍

1、Hive

Hive是将Hadoop包装成使用简单的软件，用户可以用比较熟悉的SQL语言来调取数据，也就是说，Hive其实就是将Hadoop包装成MySQL。Hive适合使用在对实时性要求不高的结构化数据处理。像是每天、每周用户的登录次数、登录时间统计；每周用户增长比例之类的BI应用。

2、HBase

HBase是用来储存和查询非结构化和半结构化数据的工具，利用row key的方式来访问数据。HBase适合处理大量的非结构化数据，例如图片、音频、视频等，在训练机器学习时，可以快速的透过标签将相对应的数据全部调出。

3、Storm

前面两个都是用来处理非实时的数据，对于某些讲求高实时性（毫秒级）的应用，就需要使用Storm。Storm也是具有容错和分布式计算的特性，架构为master-slave，可横向扩充多节点进行处理，每个节点每秒可以处理上百万条记录。可用在金融领域的风控上。

4、Impala

Impala和Hive的相似度很高，最大的不同是Impala使用了基于MPP的SQL查询，实时性比MapReduce好很多，但是无法像Hive一样可以处理大量的数据。Impala提供了快速轻量查询的功能，方便开发人员快速的查询新产生的数据。

秒客网