An Introduction to Differential Privacy

时间:2022-09-08 04:44:50

原文链接:An Introduction to Differential Privacy

差分隐私算法可以允许分析人员执行良性的聚合分析,同时保证个人隐私得到切实的保护。、

  • 背景
    数据分析中的隐私保护技术已有数十年的历史,差分隐私算法是这一领域的最新技术。两个早期概念直接影响了差分隐私:
    ①最小查询集大小
    ②Dalenius的统计披露定义
  • 最小查询集大小
    旨在确保聚合查询的安全性,最小查询集大小是一种约束,只在确保聚合查询不会泄露有关个人的信息,给定某个配置的阈值量T,其确保每个聚合查询在至少有T个记录的数据集上进行,最小查询集大小会阻止针对少于T个记录的聚合查询。然而跟踪者攻击并不能被最小查询集大小所阻止,由于这些攻击最小查询集大小被认为不足以保护查询系统,所以,需要更好的、有保证的手段以确保隐私。
  • Dalenius的统计披露定义
    1997年Tore Dalenius提出一个严格的数据隐私定义:攻击者在使用敏感数据集之前,对他们不认识的人应该一无所知。(虽然这种保证失败了,但它对理解为什么差分隐私被构造成现在的样子是很重要的)
  • 差分隐私:
    差分隐私差分隐私保证:攻击者能获取的个人数据几乎和他们从没有这个人记录的数据集中能获取的相差无几。这一保证足够强大,因为它符合显示世界——个人没有动机不参与数据集,因为不论自己在不在数据集中,该数据集的分析者都将得出关于该个人的相同的结论。由于其敏感的个人信息与系统的输出几乎完全不相关,因此用户可以确信处理其数据的组织不会侵犯他们的隐私。分析者几乎“无法获得个人信息”意味着他们被限制在关于任何个人的看法的微小变化中(“变化”是指使用数据集和使用相同的数据集减去任何一个人的记录之间的变化)。这种变化的范围由一个参数ε控制,对任何可能的结果,该参数设置了变化的边界。正式定义:算法A是-差分隐私的 当且仅当 Pr[A(D) = x] ≤ e^ϵ * Pr[A(D') = x],缺少任何一条记录的D被称为D',比如缺少某个人的数据,符号e指的是数字常数注:上述定义只对随机算法有意义,给出确定性输出的算法都不适合差分隐私。差分隐私保证的主要吸引力在于其对分析者所能获取的个人信息量的限制,此外,它具有以下有用的属性:
    • 可组合性:如果用保证程度分别为ε1和ε2的差分隐私来回应两个查询,则该对查询的差分隐私性等同于保证程度(ε1+ε2)。回想一下,较高的ε值意味着较弱的保证。
    • 针对任意背景信息的强度:这种保证不以任何方式依赖于攻击者知道的背景信息。该属性是差分隐私强于早期的隐私保证(k-anonymity)的主要原因之一。
    • 后期处理的安全性:对于差分隐私的结果,没有限制可以做什么——无论它与什么结合或者怎么被转换,它仍然是差分隐私的。

    差分隐私算法是在算法内的关键点处添加噪声的随机算法。最简单的算法之一是拉普拉斯机制,该机制可以后期处理聚合查询的结果以使得它们差分私有。此外,存在着一些从根本上不同的算法,它们已经被证明可以保证差分隐私。几个值得探索的是私人乘法权重算法,乘法权重指数机制和DualQuery。