Hadoop学习第一天

1.hadoop量大，数目多。

存储：分布式，集群的概念，管理(主节点、从节点)，HDFS。

分析：分布式、并行、离线计算框架，管理(主节点、从节点)，MapReduce。

来源：GFS->HDFS,MapReduce->hadoop MapReduce,BigTable->HBase(hadoop的数据库，分布式的大数据存储和可扩展).

HDFS+MR思想：尽量移动计算到数据端，而不是移动数据到计算端。

HDFS默认存储是三份，解决硬件和网络故障问题。

HDFS思想：文件单次写入，多次读取，有文件副本

MR思想：分而治之，排序优化

hadoop1.x核心：hadoop common，HDFS，MapReduce

hadoop2.x核心：hadoop common，HDFS，MapReduce，Hadoop YARN(资源管理平台和任务调度器，相当于一个云操作系统)

hadoop生态圈1.x：HDFS(分布式文件系统),MapReduce(分布式计算),ZooKeeper(分布式协作服务),

HBase(实时分布式数据库),Hive(数据仓库),Pig(数据流出来),Mahout(数据挖掘库),

　　　　　　 Sqoop(数据库ETL工具，和关系数据库导入导出),Flume(日志工具),Ambari(安装部署配置和管理工具) hadoop生态圈2.x：比1.x多了一个YARN，它主要作用包括资源的管理和任务的调度。(NameNode是2个或多个)

HDFS(分布式文件系统)

1.NameNode:属于管理层，管理数据存储，SecondaryNameNode辅助NameNode,

2.DataNodes:属于应用层，用户进行数据存储，被NameNode进行管理，定期向NameNode进行汇报，执行NameNode分发的任务。

MapReduce(并行计算框架)

1.jobTracker:属于管理层，管理集群资源和对任务进行资源调度，监控人去执行

2.TaskTracker:属于应用层，执行jobTracher分发的任务，并向jobTracher汇报工作情况。

以上5个是Apache hadoop守护进程

NameNode主节点记录存储文件的元素据，主要有4块(文件名，目录结构，属性，文件块列表所属dataNode)。

SecondaryNameNode:监控HDFS状态的复制后台程序，每隔一段时间获取元素据快照。（主要记录后期修改后文件的信息）

DataNode:本地文件系统存储文件块数据和数据校验和。

jobTracker 负责接收用户提交的作业，负责启动跟踪任务执行。

TaskTracker 负责执行由jobTracker分配的任务，管理的各个任务在每个节点上的执行。

（jobTracker和TaskTracker通过心跳heartbeat进行交互）

秒客网