数据匿名化对差异统计证据的影响-研究论文

时间:2024-06-29 18:53:55
【文件属性】:

文件名称:数据匿名化对差异统计证据的影响-研究论文

文件大小:315KB

文件格式:PDF

更新时间:2024-06-29 18:53:55

privacy data anonymization

近年来,数据匿名化技术的研究和实践发展激增。 尽管隐私文献质疑数据匿名化在保护个人免受与重新识别相关的伤害方面的功效,但本文提出了另一组新问题:匿名化技术本身是否可以掩盖统计差异,从而隐藏可能具有歧视性的不同影响的证据. 如果是这样,选择数据匿名化技术来保护隐私,以及采用的具体技术,可能会选择赢家和输家。 因此,检查这些选择对隐私保护对弱势群体的潜在不同影响的影响是一个至关重要的政策问题。 本文首先对两种常见的数据匿名机制和两种普遍的差异统计证据类型进行了跨学科概述。 就数据匿名化机制而言,两种常见的机制是数据移除(例如,k-匿名),其目的是移除数据集中可能识别个人的部分; 和噪声插入(例如,差异隐私),将精心设计的噪声插入到数据集中,这些噪声会阻止个人识别,但允许准确恢复某些汇总统计数据。 就差异的统计证据而言,两种普遍接受的类型是通过分离的差异(例如,表面上的歧视案例的“两个或三个标准差”规则),其基于检测之间的分离的想法不同亚群的结果分布; 和通过变化产生的差异(例如,有毒侵权案件中的“更有可能”规则),它专注于不同亚群的平均结果之间的差异程度。我们开发了概念基础和数学形式,证明这两个数据匿名化机制对差异的可识别性具有独特的影响,差异的可识别性也因其统计操作的不同而有所不同。 具体而言,在通过分离的视差机制下,数据移除倾向于产生比假阴性(即未能检测到现有视差)更多的误报(即,在不存在时检测到假视差); 而噪声插入根本不会产生任何误报。 同时,噪声插入确实会在变异的差异机制下产生假阳性(与假阴性同样可能); 而数据删除产生假阳性和假阴性的可能性取决于基础数据分布。我们用来自美国五个人口最多的州之一的住院数据集经验验证了我们的发现我们检查了四种数据匿名化技术(两种在数据删除类别和噪声插入中的其他两个),范围从德克萨斯州使用的当前规则来匿名化其全州住院患者出院数据集到用于回归分析的最先进的差分隐私算法。 在展示证实了我们的概念和数学发现的实证结果之后,我们通过讨论这些发现的商业和政策影响来总结本文,强调公司和政策制定者需要在隐私保护和承认/纠正隐私保护之间取得平衡。不同的影响。总而言之,我们的论文确定了技术和法律领域的一个重要知识差距:数据匿名化技术本身是否可以掩盖统计差异,从而隐藏可能具有歧视性的不同影响的证据。 隐私法(例如 GDPR)的出现为回答这个问题提供了首要条件,因为如果确实存在这种不同的影响,立法者和监管者基本上会通过要求或鼓励使用数据匿名化技术来挑选赢家和输家。 本文解决了这一及时而复杂的挑战,特别是考虑到美国当前关于种族歧视的公开讨论,以及在立法和法规中优先保护消费者隐私的全球趋势。


网友评论