论文研究-基于MapReduce的增量式数据集的相似性连接.pdf

时间:2022-08-11 17:04:39
【文件属性】:

文件名称:论文研究-基于MapReduce的增量式数据集的相似性连接.pdf

文件大小:1.46MB

文件格式:PDF

更新时间:2022-08-11 17:04:39

海量增量式数据集,划分,相似性连接,MapReduce

相似性连接,即利用相似函数度量数据之间的相似程度,满足条件后进行连接操作。MapReduce框架下已存在很多相似性连接算法,但仍然存在一些不足,如大量的索引加大时间、空间的开销;现有算法不能有效地完成增量式数据集的相似性连接等。针对海量增量式数据集进行了研究,采用抽样技术得到有效中枢,形成更为合理的分区,建立分区索引和分配原则,完成新增数据的相似性连接操作。实验证明,该算法能够有效地解决海量增量式数据集的相似性连接问题,验证了分区索引的建立,可以提高新增数据的相似性连接操作的效率。


网友评论