基于N-Gram算法的数据清洗技术 (2017年)

时间:2024-06-09 22:07:02
【文件属性】:

文件名称:基于N-Gram算法的数据清洗技术 (2017年)

文件大小:658KB

文件格式:PDF

更新时间:2024-06-09 22:07:02

工程技术 论文

针对数据库中存在的大量相似重复数据,对相似重复记录的属性结构以及产生原因进行了分析,采用N-Gram算法对数据记录进行计算,得到代表每条记录属性的键值,即N-Gram值.依据该键值将数据库中的数据记录进行排序处理,建立有序的数据库,并对其中的数据记录进行相似度计算.运用排列合并的清洗思想对识别出来的相似重复数据记录进行清洗,实验结果表明,N-Gram算法有效提高了相似重复数据记录的查全率和查准率.


网友评论