文件名称:概率记录链接的主动学习-研究论文
文件大小:338KB
文件格式:PDF
更新时间:2024-06-29 18:58:00
论文研究
整合来自多个来源的信息在社会科学研究中起着关键作用。 然而,当明确链接记录的唯一标识符不可用时,合并数据集可能是一项困难且容易出错的工作。 概率记录链接 (PRL) 旨在通过提供一个框架来解决这个问题,在该框架中数据集之间的公共变量被用作潜在标识符,目的是为记录之间未观察到的匹配状态生成概率估计。 在本文中,我提出了一种用于 PRL 的主动学习算法,该算法有效地将人工判断纳入了过程中,并以手动标记少量记录为代价显着提高了 PRL 的性能。 使用来自巴西当地政界人士的数据,其中一个唯一标识符可用于验证,我发现所提出的方法提高了合并过程的整体准确性。 此外,我检查了最近为 ANES 进行的投票验证研究的数据,我表明所提出的方法可以恢复与从更广泛、昂贵和耗时的文书审查中获得的估计值无法区分的估计值。