1、Application
基于spark的用户程序,包含了一个Driver Program以及集群上中多个executor;
spark中只要有一个sparkcontext就是一个application;
启动一个spark-shell也是一个application,因为在启动shark-shell时就内置了一个sc(SparkContext的实例);
2、Driver Program
运行Application的main()函数并且创建SparkContext的程序。通常用SparkContext代表Driver Program;
3、Cluster Manager
在集群上获取资源的外部服务。如:standalone、yarn、mesos;
各种不同的集群的区别:只是任务调度的粗细粒度不同,对学习spark没有影响,自己在学习时使用standalone即可;
4、Worker Node
集群中任何一个可以运行Application代码的节点;
可以在Worker Node启动Executor进程;
5、Executor
在Worker Node上为某Application启动一个进程,该进程负责运行任务,并且负责将数据存在硬盘或者内存中;每个Application都有各自独立的executors;
比如:应用A在一个Node上启动Executor,B应用也在同一个Node上启动Executor,他们各自的Executor是相互隔离的,运行在不同的JVM上。不同的应用对应不同的Executor;
6、Job
包含很多task的并行计算,spark中的一个action对应一个job,如:collect、count、saveAsTextFile;
用户提交的Job会提交给DAGScheduler,Job会被分解成Stage(TaskSet) DAG;
RDD的transformation只会记录对元数据的操作(map/filter),而并不会真正执行,只有action触发时才会执行job;
7、Stage
每个Job会被拆分成多组任务,每组任务被称为一个Stage,可称为TaskSet;
一个stage的边界往往是从某个地方取数据开始(如:sc.readTextFile),在shuffle时(如:join、reduceByKey等)终止;
一个job的结束(如:count、saveAsTextFile等)往往也是一个stage的边界;
有两种类型的Stage:shuffle和result;
8、Task
被送到executor上的工作单元;
spark分为2类task:
在Spark中有两类Task:shuffleMapTask和ResultTask,第一类Task的输出是shuffle所需数据,第二类task的输出是result;
stage的划分也以此为依据,shuffle之前的所有变换是一个stage,shuffle之后的操作是另一个stage;
比如:rdd.parallize(1 to 10).foreach(println)这个操作没有shuffle,直接就输出了,那么它的task就是resulttask,stage也只有一个;
如果rdd.map((x,1)).reduceByKey(_+_).foreach(println),这个job因为有reduce,所以有个一shuffle过程,那么reduceByKey之前是一个stage,执行shuffleMapTask,输出shuffle所需要的数据,reduceByKey到最后是一个stage,直接就输出结果了。
如果一个job中有多次shuffle,那么每个shuffle之前都是一个stage;
9、Partition
partition类似hadoop的split,计算是以partition为单位进行的
详细信息参见官方文档:http://spark.apache.org/docs/latest/cluster-overview.html