文章目录
- 零、本讲学习目标
- 一、Spark On YARN架构
- (一)client提交方式
- (二)cluster提交方式
- 二、搭建Spark On YARN集群
- (一)搭建Spark Standalone集群
- (二)修改Spark环境配置文件
- 三、提交Spark应用到集群运行
- (一)启动HDFS和YARN
- (二)运行Spark应用程序
- (三)查看应用程序运行结果
零、本讲学习目标
- 学会搭建Spark On YARN模式的集群
- 能够将Spark应用程序提交到集群运行
一、Spark On YARN架构
- Spark On YARN模式遵循YARN的官方规范,YARN只负责资源的管理和调度,运行哪种应用程序由用户自己实现,因此可能在YARN上同时运行MapReduce程序和Spark程序,YARN很好地对每一个程序实现了资源的隔离。这使得Spark与MapReduce可以运行于同一个集群中,共享集群存储资源与计算资源。Spark On YARN模式与Standalone模式一样,也分为
client
和cluster
两种提交方式。
(一)client提交方式
-
Spark On YARN的client提交方式提交应用程序后的主要进程有:SparkSubmit、ResourceManager、NodeManager、CoarseGrainedExecutorBackend、ExecutorLauncher,运行架构如下图所示:
-
与Standalone模式的client提交方式类似,客户端会产生一个名为
SparkSubmit
的进程,Driver程序则运行于该进程中,且ResourceManager的功能类似于Standalone模式的Master;NodeManager的功能类似于Standalone模式的Worker。当Spark程序运行时,ResourceManager会在集群中选择一个NodeManager进程启动一个名为ExecutorLauncher的子进程,该子进程是Spark的自定义实现,承担YARN中的ApplicationMaster角色,类似MapReduce的MRAppMaster进程。 -
使用Spark On YARN的client提交方式提交Spark应用程序的执行步骤
(1)客户端向YARN的ResourceManager提交Spark应用程序。客户端本地启动Driver。
(2)ResourceManager收到请求后,选择一个NodeManager节点向其分配一个Container,并在该Container中启动ApplicationMaster(指ExecutorLauncher进程),该ApplicationMaster中不包含Driver程序,只负责启动和监控Executor(指CoarseGrainedExecutorBackend进程),并与客户端的Driver进行通信。
(3)ApplicationMaster向ResourceManager申请Container。ResourceManager收到请求后,向ApplicationMaster分配Container。
(4)ApplicationMaster请求NodeManager,NodeManager在获得的Container中启动CoarseGrainedExecutorBackend。
(5)CoarseGrainedExecutorBackend启动后,向客户端的Driver中的SparkContext注册并申请Task。
(6)CoarseGrainedExecutorBackend得到Task后,开始执行Task,并向SparkContext汇报执行状态和进度等信息。
(二)cluster提交方式
- Spark On YARN的cluster提交方式提交应用程序后的主要进程有:SparkSubmit、ResourceManager、NodeManager、CoarseGrainedExecutorBackend、ApplicationMaster,运行架构如下图所示:
- 与Standalone模式的cluster提交方式类似,客户端仍然会产生一个名为
SparkSubmit
的进程,且ResourceManager的功能类似于Standalone模式的Master;NodeManager的功能类似于Standalone模式的Worker。ResourceManager会在集群中选择一个NodeManager进程启动一个名为ApplicationMaster的子进程,该子进程即为Driver进程(Driver程序运行在其中),同时作为一个YARN中的ApplicationMaster向ResourceManager申请资源,进一步启动Executor(这里指CoarseGrainedExecutorBackend)以运行Task。 -
使用Spark On YARN的cluster提交方式提交Spark应用程序的执行步骤
(1)客户端向YARN的ResourceManager提交Spark应用程序。
(2)ResourceManager收到请求后,选择一个NodeManager节点向其分配一个Container,并在该Container中启动ApplicationMaster,ApplicationMaster中包含SparkContext的初始化。
(3)ApplicationMaster向ResourceManager申请Container。ResourceManager收到请求后,向ApplicationMaster分配Container。
(4)ApplicationMaster请求NodeManager,NodeManager在获得的Container中启动CoarseGrainedExecutorBackend。
(5)CoarseGrainedExecutorBackend启动后,向ApplicationMaster的Driver中的SparkContext注册并申请Task(这一点与Spark On YARN的client方式不一样)。
(6)CoarseGrainedExecutorBackend得到Task后,开始执行Task,并向SparkContext汇报执行状态和进度等信息。
二、搭建Spark On YARN集群
(一)搭建Spark Standalone集群
- 参看《 Spark基础学习笔记05:搭建Spark Standalone集群》
(二)修改Spark环境配置文件
- Spark On YARN模式的搭建比较简单,仅需要在YARN集群的一个节点上安装Spark即可,该节点可作为提交Spark应用程序到YARN集群的客户端。Spark本身的Master节点和Worker节点不需要启动。
- 使用此模式需要修改Spark配置文件
,添加Hadoop相关属性,指定Hadoop与配置文件所在目录
export JAVA_HOME=/usr/local/jdk1.8.0_162
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077
export HADOOP_HOME=/usr/local/hadoop-2.7.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
- 1
- 2
- 3
- 4
- 5
- 存盘退出后,执行命令:
source
,让配置生效
三、提交Spark应用到集群运行
(一)启动HDFS和YARN
- 执行命令:
- 执行命令:
(二)运行Spark应用程序
-
查看Spark应用程序
$SPARK_HOME/examples/jars/spark-examples_2.11-2.1.
-
以Spark On YARN的cluster模式运行Spark应用程序
-
进入Spark安装目录,执行命令
bin/spark-submit \
--class \
--master yarn \
--deploy-mode cluster \
./examples/jars/spark-examples_2.11-2.1.
- 1
- 2
- 3
- 4
- 5
- 录屏演示操作情况
- 注意:
tracking URL: http://master:8088/proxy/application_1651184694326_0001/
- 程序执行过程中,可在YARN的ResourceManager对应的WebUI中查看应用程序执行的详细信息
- 浏览器中通过
http://master:8088
来访问YARN
的WebUI
(三)查看应用程序运行结果
-
Spark On YARN的cluster模式运行Spark应用不会将结果打印到控制台,可在上图WebUI中单击
application_1651184694326_0001
超链接,在Application
详情页面的最下方单击Logs
超链接,然后在新页面中单击stdout
所属超链接,即可显示输出日志,而运行结果则在日志中,整个查看日志的过程如下所示。 -
单击
Logs
超链接 -
单击
stdout : Total file length is 33 bytes.
超链接,即可查看到Spark应用的运行结果