Spark中的Stage概念

什么是Stage？

在Spark中，Stage 是作业（Job）执行过程中分解出的一个任务单元。可以把它理解为数据处理过程中的一个阶段，每个Stage执行一些计算任务，通常与某种类型的数据依赖或数据分区有关。

一个 Job 会被拆分成多个 Stage，每个Stage内包含多个Task（任务），这些Task会并行执行。Stage的划分是基于数据的依赖关系，主要通过两种类型的依赖：窄依赖（Narrow Dependency）和宽依赖（Wide Dependency）。

Stage的执行过程

在Spark中，Stage 是由任务调度器（DAGScheduler）根据 DAG（有向无环图） 的拓扑关系来划分的。当Spark执行一个Job时，Job会被拆分成多个Stage，每个Stage的任务会并行执行，并且按照Stage的顺序依次执行。

窄依赖（Narrow Dependency）：
每个父RDD的分区只会被一个子RDD的分区使用，这种依赖关系通常表示不需要进行数据的重新分区（例如 map、filter 操作）。
宽依赖（Wide Dependency）：子RDD的分区依赖于父RDD的所有分区，需要进行数据的重新分区（例如
groupByKey、reduceByKey 操作）。这种依赖通常会触发 Shuffle 操作，即数据的重新分配和排序，进而导致Stage的划分。

Spark如何划分Stage？

窄依赖：
当操作之间只有窄依赖时，Spark可以在一个Stage内顺利完成处理。例如，map、filter 等操作，它们只会对数据进行逐个分区的转换，因此可以在同一Stage内执行。
宽依赖：
当涉及到宽依赖时，Spark会把这些操作划分为不同的Stage，因为这类操作需要Shuffle，即将数据从不同的节点进行重新分配。例如，groupByKey 或 reduceByKey 操作需要跨分区进行数据的合并和排序，这就要求Spark执行一次Shuffle操作，随后会创建一个新的Stage来处理这部分操作。
Shuffle：
当Job中包含Shuffle操作时，每个Shuffle操作之前和之后都会有一个新的Stage。例如，reduceByKey 操作会触发一个Shuffle，因此这部分操作会被划分为一个Stage。Shuffle操作本质上是数据的重新分配。

Spark中的Stage类型

在Spark中，Stage通常被分为两种类型：ShuffleMapStage 和 ResultStage。

ShuffleMapStage：
这种Stage是一个中间Stage，它的输出会用于下一个Stage的输入。
它的任务是将数据通过Shuffle操作分发到下一个Stage。
比如：reduceByKey 之前的操作，会生成一个ShuffleMapStage。
ResultStage：
这种Stage是最终输出结果的Stage，它的任务是将数据计算结果输出到最终的存储系统或返回给用户。
每个Job至少有一个ResultStage，它的输出是整个Job的最终结果。
比如：collect()、saveAsTextFile() 等操作通常会触发ResultStage。

Spark Stage的执行原理

Task的划分：

Spark会根据Stage的划分，将每个Stage拆分成多个Task。每个Task对应于一个数据分区（Partition），通常每个Task会并行处理一个数据分区。
ShuffleMapTask：这是一个生成Shuffle数据的任务，通常出现在ShuffleMapStage中。
ResultTask：这是一个处理最终结果的任务，通常出现在ResultStage中。

依赖关系：
Stage之间的依赖关系决定了执行顺序。如果一个Stage依赖于另一个Stage的输出，那么只有前一个Stage执行完成后，后一个Stage才能开始执行。

在这里插入图片描述

例子：Stage划分示例

假设我们有一个包含多个操作的Job：

val data = sc.parallelize(1 to 10)

// 操作1: map（窄依赖）
val mappedData = data.map(x => x * 2)

// 操作2: reduceByKey（宽依赖，需要Shuffle）
val reducedData = mappedData.map(x => (x, 1)).reduceByKey(_ + _)

// 操作3: collect（ResultStage）
reducedData.collect()

在这个例子中，执行的流程如下：

Stage 1：data.map(x => x * 2)，由于是窄依赖，它和后续的操作在同一个Stage中执行。
Stage 2：reduceByKey(_ + _)，因为是宽依赖，需要进行Shuffle操作，Spark会创建新的Stage进行处理。
Stage 3：collect()，最终结果的输出，通常是ResultStage。

秒客网

Spark中的Stage概念