Hadoop基础 (一) 基础介绍
1、 组成
a. HDFS (Hadoop Distributed File System) : 海量数据的存储
b. MapReduce引擎: 海量数据的离线分析
JobTrackers
TaskTrackers
2、 HDFS介绍:
master-slave模式
client: 从NameNode读取信息,读取DataNode信息
Block: 一个文件分块, 默认大小为64m
NameNode: 保存整个文件系统的目录信息/文件信息以及文件相应的分块信息。即使同时运行多个NameNode,但同时提供服务的NameNode只有一个。NameNode的信息,一般保存在内存中,同时也会将一部分信息持久化到硬盘,用于失败时的恢复。
DataNode: 用于存储一个一个的Blocks
3、 MapReduce介绍:
master-slave模式
map: 将一个任务分解为多个任务
reduce: 将分解后的任务处理,得到最后的分析结果
master: JobTrackers, 负责管理调度所有作业(Job/Task)的核心
slave: TaskTrackers, 具体负责执行用户定义操作task,包括map任务和reduce任务。一个TaskTracker可以启动多个JVM并行执行
Job: 作业,用户的每个计算请求称为一个作业
Task:任务, 一个作业拆分成多个任务
MapReduce在Hadoop2中称为MR2或YARN, 将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控), 拆分成两个独立的服务,用于管理全部资源的ResourceManager以及管理每个应用的ApplicationMaster。ResourceManager用于管理向应用程序分配计算资源,每个ApplicationMaster用于管理应用程序、调度以及协调。