文件名称:一种避免数据偏斜的动态Hash连接方法
文件大小:303KB
文件格式:PDF
更新时间:2021-12-06 12:04:42
hash连接方法 数据库
数据库方面的论文,一种避免数据偏斜的动态Hash连接方法 Hash连接在并行数据库查询中得到大量运用,许多文章对此进行了讨论,并给出了相应算法.通常在连接之前,为减少参与连接的关系元组的数目,可先进行选择和投影操作,因此无法预知这些关系的分布情况,同时尚无一种Hash函数能够在此前提下得到均匀的工作负载.不平衡负载对并行操作会产生很大的负面影响,因此为了充分利用Hash连接算法,研究负载平衡是很重要的.数据偏斜导致不平衡负载有很多原因:连接属性值的不均匀分布会导致内在固有偏斜(IntrinsicSkew),处理器间隐含着的连接中的负载不平衡将会导致划分偏斜(ParitionSkew).因此负载的不平衡可能发生在连接算法的不同阶段.