使用预聚合的shuffle操作。-spark基础知识讲解下载

【文件属性】：

文件名称：使用预聚合的shuffle操作。-spark基础知识讲解

文件大小：1.83MB

文件格式：PPT

更新时间：2024-05-16 04:02:51

spark 原理

4，使用预聚合的shuffle操作。所谓的map-side预聚合，说的是在每个节点本地对相同的key进行一次聚合操作，类似于MapReduce中的本地combiner。map-side预聚合之后，每个节点本地就只会有一条相同的key，因为多条相同的key都被聚合起来了。其他节点在拉取所有节点上的相同key时，就会大大减少需要拉取的数据数量，从而也就减少了磁盘IO以及网络传输开销。通常来说，在可能的情况下，建议使用reduceByKey或者aggregateByKey算子来替代掉groupByKey算子。因为reduceByKey和aggregateByKey算子都会使用用户自定义的函数对每个节点本地的相同key进行预聚合。而groupByKey算子是不会进行预聚合的，全量的数据会在集群的各个节点之间分发和传输，性能相对来说比较差。 5，使用Kryo优化序列化性能官方介绍，Kryo序列化机制比Java序列化机制，性能高10倍左右。Spark之所以默认没有使用Kryo作为序列化类库，是因为Kryo要求最好要注册所有需要进行序列化的自定义类型，因此对于开发者来说，这种方式比较麻烦。

立即下载

秒客网

使用预聚合的shuffle操作。-spark基础知识讲解

网友评论

相关文章