文件名称:解决Spark数据倾斜(DataSkew)的N种姿势
文件大小:3.48MB
文件格式:PDF
更新时间:2024-02-17 10:47:51
解决Spark数据倾斜(DataSkew)的N种姿势
对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。何谓数据倾斜?数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。在Spark中,同一个Stage的不同Partition可以并行处理,而具体依赖关系的不同Stage之间是串行处理的。假设某个SparkJob分为Stage0和Stage1两个Stage,且Stage1依赖于Stage0,那Stage0完全处理结束之前不会处理Stage1。而Stage0可能包含N个Task,这N个