Spark中的shuffle过程详细

一、Spark中哪些算子会产生Shuffle

全局分组：reduceByKey，groupByKey

全局排序：sortBy，sortByKey

增大分区:repartition,coalese

groupByKey sortByKey sortBy reduceByKey repartition
coalesce(根据情况) join / fullOuterJoin / leftOuterJoin / rightOuterJoin

二、Spark中有哪些shuffle分类

Hash Based Shuffle （老的） Sort Based Shuffle 新的shuffle工具中包含Tungsten-Sort Based Shuffle

1、Hash Based Shuffle

没有排序，只有分区，每个Task按照ReduceTask个数生成【M*R】，简单数据量比较小，性能就比较高，但是：小文件非常多，数据量比较大性能非常差

2、Hash Based Shuffle 优化后，File Consolidation机制

没有排序，只有分区，每个Executor按照ReducTask个数生成多个文件：Executor*R

3、Sort Based Shuffle 目前是最新的

分为两个

Shuffle Write：类似于mr中map端的shuffle，但是Spark的Shuffle Write有3种，会根据情况自动判断选择哪种Shuffle Write

Shuffle Read：类似与mr种的reduce端shuffle，但是Spark的Shuffle Read功能由算子决定，不同算子经过的过程不一样

SortShuffleWrite：普通 Sort Shuffle Write

排序，生成一个整体基于分区和分区内部有序的文件和一个索引文件，有序排序，先生成多个小文件，再生成整体有序大文件，每个Task生成2个文件，数据文件和索引文件，Sort Shuffle Write过程与MapReduce的Map端shuffle基本一致

BypassMergeSortShuffleWriter：

类似与序列化后的Hash Based Shuffle，先每个分区生成一个文件，最后合并为一个大文件，分区内部不排序，分区数小于200，并且没有map端的聚合操作，适用于数据量小的数据，不在内存中排序

UnsafeShuffleWriter

钨丝计划方案，使用UnSafe API操作序列化数据，使用压缩指针存储元数据，溢写合并使用fastMerge提升效率，Map端没有聚合操作、序列化方式需要支持重定位，Partition个数不能超过2^24-1个

什么时候下使用ShuffleWriter

ShuffleWriter的实现方式

BypassMergeSortShuffleWriter

使用这种shuffle writer的条件是，没有map端的聚合操作，分区数小于参数：spark.shuffle.sort.bypassMergeThreshold，默认是200

UnsafeShuffleWriter

使用这种shuffle writer的条件是，序列化工具类支持对象的重定位，不需要在map端进行聚合操作，分区数不能大于：PackedRecordPointer.MAXIMUM_PARTITION_ID + 1

SortShuffleWriter

若以上两种shuffle writer都不能选择，则使用该shuffle writer类。
这也是相对比较常用的一种shuffle writer。

Shuffle Read：类似于MapReduce中的Reduce端shuffle

Reduce端的shuffle过程一定会经过合并排序、分组，不需要排序，依旧会给结果进行排序

秒客网

Spark中的shuffle过程详细

一、Spark中哪些算子会产生Shuffle

二、Spark中有哪些shuffle分类

1、Hash Based Shuffle

2、Hash Based Shuffle 优化后，File Consolidation机制

3、Sort Based Shuffle 目前是最新的

SortShuffleWrite：普通 Sort Shuffle Write

BypassMergeSortShuffleWriter：

UnsafeShuffleWriter

ShuffleWriter的实现方式

BypassMergeSortShuffleWriter

UnsafeShuffleWriter

SortShuffleWriter

Shuffle Read：类似于MapReduce中的Reduce端shuffle

相关文章