文件名称:大数据量的高效重复记录检测方法 (2010年)
文件大小:261KB
文件格式:PDF
更新时间:2024-05-11 18:26:16
自然科学 论文
针对目前重复记录检测方法不能有效处理大数据量的问题,提出了一种高效的重复记录检测方法。根据概念依赖图计算表的关键属性,并根据关键属性值将数据划分为记录集,在划分后的记录集中进行重复记录检测,大大减少需要比较的记录数,提高算法的效率;在记录集内进行重复记录检测时,将已匹配的记录合并后和已有的记录重新比较,提高了算法的准确度和效率。实验数据显示在大数据量情况下,计算效率提高47%。