Hadoop学习第一天

时间:2023-03-08 22:16:20
Hadoop学习第一天

1.hadoop量大,数目多。

存储:分布式,集群的概念,管理(主节点、从节点),HDFS。

分析:分布式、并行、离线计算框架,管理(主节点、从节点),MapReduce。

来源:GFS->HDFS,MapReduce->hadoop MapReduce,BigTable->HBase(hadoop的数据库,分布式的大数据存储和可扩展).

HDFS+MR思想:尽量移动计算到数据端,而不是移动数据到计算端。

HDFS默认存储是三份,解决硬件和网络故障问题。

HDFS思想:文件单次写入,多次读取,有文件副本

MR思想:分而治之,排序优化

hadoop1.x核心:hadoop common,HDFS,MapReduce

hadoop2.x核心:hadoop common,HDFS,MapReduce,Hadoop YARN(资源管理平台和任务调度器,相当于一个云操作系统)

hadoop生态圈1.x:HDFS(分布式文件系统),MapReduce(分布式计算),ZooKeeper(分布式协作服务),

HBase(实时分布式数据库),Hive(数据仓库),Pig(数据流出来),Mahout(数据挖掘库),

              Sqoop(数据库ETL工具,和关系数据库导入导出),Flume(日志工具),Ambari(安装部署配置和管理工具) hadoop生态圈2.x:比1.x多了一个YARN,它主要作用包括资源的管理和任务的调度。(NameNode是2个或多个)

HDFS(分布式文件系统)

1.NameNode:属于管理层,管理数据存储,SecondaryNameNode辅助NameNode,

2.DataNodes:属于应用层,用户进行数据存储,被NameNode进行管理,定期向NameNode进行汇报,执行NameNode分发的任务。

MapReduce(并行计算框架)

1.jobTracker:属于管理层,管理集群资源和对任务进行资源调度,监控人去执行

2.TaskTracker:属于应用层,执行jobTracher分发的任务,并向jobTracher汇报工作情况。

以上5个是Apache hadoop守护进程

NameNode主节点记录存储文件的元素据,主要有4块(文件名,目录结构,属性,文件块列表所属dataNode)。

SecondaryNameNode:监控HDFS状态的复制后台程序,每隔一段时间获取元素据快照。(主要记录后期修改后文件的信息

DataNode:本地文件系统存储文件块数据和数据校验和。

jobTracker 负责接收用户提交的作业,负责启动跟踪任务执行。

TaskTracker 负责执行由jobTracker分配的任务,管理的各个任务在每个节点上的执行。

jobTracker和TaskTracker通过心跳heartbeat进行交互