文件名称:重复记录检测技术:问题和说明-研究论文
文件大小:354KB
文件格式:PDF
更新时间:2024-06-29 12:55:45
论文研究
数据质量已成为基于计算机的管理系统的关键问题。 数据不足会导致严重的运营困难以及直接的经济损失。 此外,随着商业电子化(Vasarhelyi 和 Greenstein 2003)、全球化和实时经济的发展,数据库的规模正在以指数级的速度增长。 曾经的手动流程现在存储在电子数据库中,数据来自多个来源。 这种异质性引发了一系列新问题。 错误——例如不正确的数据输入、不完整的信息和来自不同数据源的非标准化格式——可能导致数据库中存在多个相同真实对象的表示。 本文讨论了一个很少受到学术关注但对组织的数据质量仍然非常重要的问题,特别是重复支付。 我们使用来自电信公司的数据来演示记录匹配技术。