1.客户端提交mr程序job的流程

客户端提交job后（job.submit()），Yarn的ResourceManager会返回本次所提交的job的提交路径（hdfs://xxx../staging）和jobid，然后拼接为一个job的资源提交路径（hdfs://…./staging/jobid）
然后会将
1）job的切片规划（调用FileInputFormat.getSplits()获取切片规划List）序列化成的文件job.split
2）job.xml文件（job的相关参数）
3）job的jar包
拷贝到刚才拼接成的资源提交路径
流程图解

2.mr程序在YARN上的工作机制

客户端提交job后，通过客户端所在节点的YRANRUNNER向resource manager（之后简称rm）申请提交一个application
rm会返回任务的资源提交路径hdfs://xxx…/..和application_id
客户端所在节点的YRANRUNNER提交job运行所需要的资源（job.split、job.xml、job.jar）到前面提到的拼接的资源提交路径，资源提交完毕后申请运行mrAppMaster，先挑一台node manager创建容器（cpu+ram）运行mrAppMaster

rm将用户的请求封装成一个个的job，放入队列中（YARN的三种调度器，FIFO(默认)、Fair、Capacity），mrAppMaster领取到任务后先下载job资源到本地，然后根据任务描述，向rm申请运行maptask的容器，rm在分配容器给node manager来启动maptask和reducetask

三点需要注意：

    1)程序运行时，只有mrAppMaster知道运行信息，rm和node manager都不知道，YARN只负责资源的分配。从这一点可以看出YARN和mr程序是解耦的。

    2)maptask执行完毕后，相应的资源会被回收，那之后启动的reduce拿到maptask生成的数据呢？maptask虽然不在了，但是有文件，它们被node manager管理，reduce可以找node manager 要，搭建环境时配过一个参数（mapreduced_shuffle）就是配合管理这些文件。

    3)Hadoop1.x版本中角色分为JobTracker和TaskTracker，JobTracker既要监控运算流程，又要负责资源调度，耦合度高，导致负载过大。

流程图解

秒客网

MapReduce在YARN上的运行流程

1.客户端提交mr程序job的流程

2.mr程序在YARN上的工作机制

相关文章