Hadoop基础（一）基础介绍

1、组成
a. HDFS (Hadoop Distributed File System) : 海量数据的存储

b. MapReduce引擎：海量数据的离线分析
JobTrackers
TaskTrackers

2、 HDFS介绍：
master-slave模式
client: 从NameNode读取信息，读取DataNode信息
Block: 一个文件分块，默认大小为64m
NameNode: 保存整个文件系统的目录信息/文件信息以及文件相应的分块信息。即使同时运行多个NameNode，但同时提供服务的NameNode只有一个。NameNode的信息，一般保存在内存中，同时也会将一部分信息持久化到硬盘，用于失败时的恢复。
DataNode: 用于存储一个一个的Blocks

3、 MapReduce介绍:
master-slave模式
map：将一个任务分解为多个任务
reduce: 将分解后的任务处理，得到最后的分析结果

master: JobTrackers, 负责管理调度所有作业(Job/Task)的核心
slave： TaskTrackers, 具体负责执行用户定义操作task，包括map任务和reduce任务。一个TaskTracker可以启动多个JVM并行执行

Job：作业，用户的每个计算请求称为一个作业
Task：任务, 一个作业拆分成多个任务

MapReduce在Hadoop2中称为MR2或YARN，将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控), 拆分成两个独立的服务，用于管理全部资源的ResourceManager以及管理每个应用的ApplicationMaster。ResourceManager用于管理向应用程序分配计算资源，每个ApplicationMaster用于管理应用程序、调度以及协调。

Hadoop基础（一）基础介绍

秒客网

Hadoop基础（一）基础介绍

相关文章

Hadoop基础 （一） 基础介绍

相关文章

Hadoop基础（一）基础介绍