论文研究-基于Spark的两表等值连接过程优化.pdf

时间:2022-08-11 13:02:32
【文件属性】:

文件名称:论文研究-基于Spark的两表等值连接过程优化.pdf

文件大小:906KB

文件格式:PDF

更新时间:2022-08-11 13:02:32

Spark,等值连接,大数据,优化,拆分

在数据统计分析查询中表间的等值连接是常用的操作之一,但代价较高。大数据环境下大表之间等值连接的效率更低。为了解决该问题,提出了一种基于Spark的两表等值连接过程优化方法。首先根据数据价值密度特征构建Bloom filter完成表的过滤操作;其次结合simi-join和partition join两者的优势,对过滤后的单侧表使用贪心算法进行拆分;最后对拆分后的子集进行连接,因此把两大表的连接过程转换为分阶段进行的两小表连接。代价分析和实验结果表明,该算法与现有基于Spark的连接操作相比,不仅在性能上得到了提升,而且当出现数据倾斜时对算法效率影响较小。


网友评论