我们经常通过spark-submit来提交spark应用程序,那么让我们一起看一下这里面到底发生了什么吧。
知识点:
1.CLI命令行界面启动Spark应用程序
Unix有两种方式:1)spark-submit 2)spark-class。前者是我们常见的方式,后者是spark集群内部使用的方式。spark-submit实际上是调用spark-class来提交应用程序的,所以本质上是一种方式。
Win中有两种方式:1)spark-submit.cmd 2)spark-class.cmd。spark-submit.cmd调用spark-class.cmd,spark-class.cmd调用spark-class2.cmd来完成的。
2.SparkSubmit.scala详解
SparkSubmit.scala包含3个Object和一个class,分别是SparkSubmit、SparkSubmitAction、SparkSubmitUtils和OptionAssigner。
(1)SparkSubmitAction是一个只允许在deploy包中访问的枚举子类,用来判断sparksubmit命令的请求类型。代码如下:
private[deploy] object SparkSubmitAction extends Enumeration {
type SparkSubmitAction = Value
val SUBMIT, KILL, REQUEST_STATUS = Value
}
(2)SparkSubmitUtils也是一个Object,由名字就可知它是一个sparksubmit的辅助类,主要用于一些参数的处理及maven相关依赖的处理
(3)SparkSubmit是一个非常重要的Object。
主要的几个字段如下所示:
// 集群管理
private val YARN = 1
private val STANDALONE = 2
private val MESOS = 4
private val LOCAL = 8
private val ALL_CLUSTER_MGRS = YARN | STANDALONE | MESOS | LOCAL
// 部署模式
private val CLIENT = 1
private val CLUSTER = 2
private val ALL_DEPLOY_MODES = CLIENT | CLUSTER
我们可以看出,平时我们熟悉的这些字符串可能就只是一个整数而已
主要的几个方法如下所示:
- main方法如下所示:
def main(args: Array[String]): Unit = {
val appArgs = new SparkSubmitArguments(args)
if (appArgs.verbose) {
// scalastyle:off println
printStream.println(appArgs)
// scalastyle:on println
}
appArgs.action match {
//通过spark-submit提交应用程序
case SparkSubmitAction.SUBMIT => submit(appArgs)
//通过spark-submit取消应用程序,目前只支持standalone cluster模式
case SparkSubmitAction.KILL => kill(appArgs)
//通过spark-submit请求得到应用程序,目前只支持standalone cluster模式
case SparkSubmitAction.REQUEST_STATUS => requestStatus(appArgs)
}
}
submit方法中首先通过CLI传递过来的参数,设置不同模式下的合适的类路径、系统属性及应用参数,然后创建环境运行应用程序的Main方法,submit方法如下所示:
private def submit(args: SparkSubmitArguments): Unit = {
val (childArgs, childClasspath, sysProps, childMainClass) = prepareSubmitEnvironment(args)
def doRunMain(): Unit = {
if (args.proxyUser != null) {
val proxyUser = UserGroupInformation.createProxyUser(args.proxyUser,
UserGroupInformation.getCurrentUser())
try {
proxyUser.doAs(new PrivilegedExceptionAction[Unit]() {
override def run(): Unit = {
runMain(childArgs, childClasspath, sysProps, childMainClass, args.verbose)
}
})
} catch {
} else {
runMain(childArgs, childClasspath, sysProps, childMainClass, args.verbose)
}
}
if (args.isStandaloneCluster && args.useRest) {
try {
printStream.println("Running Spark using the REST application submission protocol.")
doRunMain()
} catch {
}
} else {
doRunMain()
}
}
由代码可知submit调用doRunMain方法,然后doRunMain方法调用runMain方法触发应用程序的main方法。详细请看上图
kill方法如下所示:利用CLI传递过来的子任务ID和master通过Post方式取消任务
private def kill(args: SparkSubmitArguments): Unit = {
new RestSubmissionClient(args.master)
.killSubmission(args.submissionToKill)
}
requestStatus方法如下所示:利用CLI传递过来的子任务ID和master通过Get方式得到任务的具体信息
private def requestStatus(args: SparkSubmitArguments): Unit = {
new RestSubmissionClient(args.master)
.requestSubmissionStatus(args.submissionToRequestStatusFor)
}