Hadoop是适合大数据的分布式存储与计算平台
HDFS的架构:主从式结构
主节点只有一个NameNode,从节点可以有很多个DataNode。
NameNode负责:
(1)接收用户操作请求
(2)维护文件系统的目录结构
(3)管理文件与block之间关系,block与DataNode之间联系
DataNode负责:
(1)存储文件
(2)文件被分成block存储在磁盘上
(3)为保证数据安全,文件会有多个副本
NameNode和DataNode是指不同的独立的物理机器。
类比:积木拼图,NameNode就是说明书,每一个积木块就是DataNode。
MapReduce的架构:主从式结构
主节点只有一个JobTracker,从节点可以有很多个TaskTracker。
JobTracker负责:
(1)接收客户提交的计算任务
(2)把计算任务分给TaskTracker执行
(3)监控TaskTracker的执行情况
TaskTracer负责:
(1)执行JobTracer分配的计算任务
Hadoop的物理集群分布:
上面的每一个结点,不论是主节点还是从节点,本质上都是一个java进程。
单个结点的物理结构:
所以Hadoop的特点:
(1)分布式:扩容能力强、成本低、高效率
(2)副本机制:可靠性高