文件名称:Spark调优.webp
文件大小:7KB
文件格式:WEBP
更新时间:2022-12-04 09:58:08
Spark
Spark调优 直接join将会对所有数据进行shuffle,需要大量的io操作,相同的key会在同一个partition中进行处理,任务的并发度也收到了限制。使用broadcast将会把小表分发到每台执行节点上,因此,关联操作都在本地完成,基本就取消了shuffle的过程,运行效率大幅度提高,进行了broadcast,可以看到连shuffle过程都省略了。