Spark基础学习笔记06：搭建Spark On YARN集群

文章目录

零、本讲学习目标
一、Spark On YARN架构
- （一）client提交方式
- （二）cluster提交方式
二、搭建Spark On YARN集群
- （一）搭建Spark Standalone集群
- （二）修改Spark环境配置文件
三、提交Spark应用到集群运行
- （一）启动HDFS和YARN
- （二）运行Spark应用程序
- （三）查看应用程序运行结果

零、本讲学习目标

学会搭建Spark On YARN模式的集群
能够将Spark应用程序提交到集群运行

一、Spark On YARN架构

Spark On YARN模式遵循YARN的官方规范，YARN只负责资源的管理和调度，运行哪种应用程序由用户自己实现，因此可能在YARN上同时运行MapReduce程序和Spark程序，YARN很好地对每一个程序实现了资源的隔离。这使得Spark与MapReduce可以运行于同一个集群中，共享集群存储资源与计算资源。Spark On YARN模式与Standalone模式一样，也分为client和cluster两种提交方式。

（一）client提交方式

Spark On YARN的client提交方式提交应用程序后的主要进程有：SparkSubmit、ResourceManager、NodeManager、CoarseGrainedExecutorBackend、ExecutorLauncher，运行架构如下图所示：
与Standalone模式的client提交方式类似，客户端会产生一个名为SparkSubmit的进程，Driver程序则运行于该进程中，且ResourceManager的功能类似于Standalone模式的Master；NodeManager的功能类似于Standalone模式的Worker。当Spark程序运行时，ResourceManager会在集群中选择一个NodeManager进程启动一个名为ExecutorLauncher的子进程，该子进程是Spark的自定义实现，承担YARN中的ApplicationMaster角色，类似MapReduce的MRAppMaster进程。
使用Spark On YARN的client提交方式提交Spark应用程序的执行步骤
（1）客户端向YARN的ResourceManager提交Spark应用程序。客户端本地启动Driver。
（2）ResourceManager收到请求后，选择一个NodeManager节点向其分配一个Container，并在该Container中启动ApplicationMaster（指ExecutorLauncher进程），该ApplicationMaster中不包含Driver程序，只负责启动和监控Executor（指CoarseGrainedExecutorBackend进程），并与客户端的Driver进行通信。
（3）ApplicationMaster向ResourceManager申请Container。ResourceManager收到请求后，向ApplicationMaster分配Container。
（4）ApplicationMaster请求NodeManager，NodeManager在获得的Container中启动CoarseGrainedExecutorBackend。
（5）CoarseGrainedExecutorBackend启动后，向客户端的Driver中的SparkContext注册并申请Task。
（6）CoarseGrainedExecutorBackend得到Task后，开始执行Task，并向SparkContext汇报执行状态和进度等信息。

（二）cluster提交方式

Spark On YARN的cluster提交方式提交应用程序后的主要进程有：SparkSubmit、ResourceManager、NodeManager、CoarseGrainedExecutorBackend、ApplicationMaster，运行架构如下图所示：
与Standalone模式的cluster提交方式类似，客户端仍然会产生一个名为SparkSubmit的进程，且ResourceManager的功能类似于Standalone模式的Master；NodeManager的功能类似于Standalone模式的Worker。ResourceManager会在集群中选择一个NodeManager进程启动一个名为ApplicationMaster的子进程，该子进程即为Driver进程（Driver程序运行在其中），同时作为一个YARN中的ApplicationMaster向ResourceManager申请资源，进一步启动Executor（这里指CoarseGrainedExecutorBackend）以运行Task。
使用Spark On YARN的cluster提交方式提交Spark应用程序的执行步骤
（1）客户端向YARN的ResourceManager提交Spark应用程序。
（2）ResourceManager收到请求后，选择一个NodeManager节点向其分配一个Container，并在该Container中启动ApplicationMaster，ApplicationMaster中包含SparkContext的初始化。
（3）ApplicationMaster向ResourceManager申请Container。ResourceManager收到请求后，向ApplicationMaster分配Container。
（4）ApplicationMaster请求NodeManager，NodeManager在获得的Container中启动CoarseGrainedExecutorBackend。
（5）CoarseGrainedExecutorBackend启动后，向ApplicationMaster的Driver中的SparkContext注册并申请Task（这一点与Spark On YARN的client方式不一样）。
（6）CoarseGrainedExecutorBackend得到Task后，开始执行Task，并向SparkContext汇报执行状态和进度等信息。

二、搭建Spark On YARN集群

（一）搭建Spark Standalone集群

参看《 Spark基础学习笔记05：搭建Spark Standalone集群》

（二）修改Spark环境配置文件

Spark On YARN模式的搭建比较简单，仅需要在YARN集群的一个节点上安装Spark即可，该节点可作为提交Spark应用程序到YARN集群的客户端。Spark本身的Master节点和Worker节点不需要启动。
使用此模式需要修改Spark配置文件，添加Hadoop相关属性，指定Hadoop与配置文件所在目录

export JAVA_HOME=/usr/local/jdk1.8.0_162
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077
export HADOOP_HOME=/usr/local/hadoop-2.7.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

存盘退出后，执行命令：source ，让配置生效

三、提交Spark应用到集群运行

（一）启动HDFS和YARN

执行命令：
执行命令：

（二）运行Spark应用程序

查看Spark应用程序$SPARK_HOME/examples/jars/spark-examples_2.11-2.1.
以Spark On YARN的cluster模式运行Spark应用程序
进入Spark安装目录，执行命令

bin/spark-submit \
--class  \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.11-2.1.

录屏演示操作情况
注意：tracking URL: http://master:8088/proxy/application_1651184694326_0001/
程序执行过程中，可在YARN的ResourceManager对应的WebUI中查看应用程序执行的详细信息
浏览器中通过http://master:8088来访问YARN的WebUI

（三）查看应用程序运行结果

Spark On YARN的cluster模式运行Spark应用不会将结果打印到控制台，可在上图WebUI中单击application_1651184694326_0001超链接，在Application详情页面的最下方单击Logs超链接，然后在新页面中单击stdout所属超链接，即可显示输出日志，而运行结果则在日志中，整个查看日志的过程如下所示。
单击Logs超链接
单击stdout : Total file length is 33 bytes.超链接，即可查看到Spark应用的运行结果

秒客网

Spark基础学习笔记06：搭建Spark On YARN集群

文章目录

零、本讲学习目标

一、Spark On YARN架构

（一）client提交方式

（二）cluster提交方式

二、搭建Spark On YARN集群

（一）搭建Spark Standalone集群

（二）修改Spark环境配置文件

三、提交Spark应用到集群运行

（一）启动HDFS和YARN

（二）运行Spark应用程序

（三）查看应用程序运行结果

相关文章