跳到主要内容

明天的技术政策对话

人们看着他们手机上的数据,因为背景与在交换机集线器上的互联网电缆一起投影在此图片插图中,拍摄于2018年5月30日。图片拍摄于2018年5月30日。路透社/ Kapper Pempel /
人们看着他们手机上的数据,因为背景与在交换机集线器上的互联网电缆一起投影在此图片插图中,拍摄于2018年5月30日。图片拍摄于2018年5月30日。路透社/ Kapper Pempel /

现代世界基于“大数据”,这是政府,企业和学术研究人员用来进行分析,挖掘模式和推动决策的海量数据集。当涉及数据分析时,越大越好:合并的数据越多,分析就越鲁棒。得益于机器学习,大规模数据分析正变得越来越强大,并具有广泛的好处,例如为公共卫生研究提供信息,减少流量以及识别贷款申请中的系统歧视。

但是,大数据有一个缺点,因为它需要汇总大量可能敏感的个人信息。无论是收集病历,抓取社交媒体资料还是跟踪银行和信用卡交易,数据科学家都有可能危及收集其记录的个人的隐私。数据一旦存储在服务器上,就可能被盗,共享或泄露。

计算机科学家已经工作了多年,试图找到使数据更具私密性的方法,但是即使他们试图去识别数据(例如,通过删除个人的名字或数据集的其他部分),对于其他人来说也常常是可能的。 “点点滴滴”,将来自多个来源的信息拼凑起来,以确定所谓的匿名个人的身份(通过所谓的 重新识别 或联动攻击)。

幸运的是,近年来,计算机科学家开发了一种有前途的新方法来保护隐私的数据分析,称为“差异隐私”,它使研究人员能够发现数据集内的模式,并获得有关总体人口的观察结果,同时又使人难以理解有关每个人的记录的信息。

解决方案:差异隐私

差异性隐私(也称为“ε不可区分性”)首先出现 2006年开发 Cynthia Dwork,Frank McSherry,Kobbi Nissim和Adam Smith撰写。在2016年的演讲中,Dwork 定义的 当“任何分析的结果基本上具有同等可能性,而与任何个人是否加入数据集或拒绝加入数据集无关”时所实现的差异隐私。

这怎么可能?差分隐私的工作原理是将预定量的随机性或“噪声”添加到对数据集执行的计算中。例如,假设有五个人对调查中的一个问题回答“是”或“否”,但是在他们的回答被接受之前,他们必须掷硬币。如果他们低着头,他们会诚实地回答这个问题。但是,如果他们甩尾巴,就必须重新掷硬币;如果第二次抛硬币是尾巴,则他们回答“是”,如果是抛头,则他们回答“否”,而不管他们对问题的实际回答如何。

作为此过程的结果,即使他们的实际答案为“否”,我们也希望四分之一的受访者(0.5 x 0.5-那些甩尾巴的人)回答“是”。有了足够的数据,研究人员将能够考虑这一可能性,并且仍然可以确定总体人群对原始问题的回答,但是数据集中的每个人都可以合理地否认包括了他们的实际回答。

当然,研究人员实际上并没有使用抛硬币,而是依靠基于预定概率的算法来类似地更改数据集中的某些响应。该算法更改的响应越多,为数据集中的个人保留的隐私越多。当然,要权衡的是,随着在计算中添加更多的“噪声”(即,随着更大百分比的响应发生变化),数据分析的准确性就会下降。

当Dwork和她的同事首次定义差异隐私时,他们使用了希腊符号 ε或epsilon,以数学方式定义与从数据集中释放数据相关的隐私损失。此值仅定义特定算法提供了多少差异隐私:epsilon的值越低,每个人的隐私受到的保护就越多。 ε越高,数据分析越准确-但是保留的隐私越少。

如果数据仍在用户设备上而受到干扰(即添加了“噪声”),则称为本地差异隐私。在收集数据后将噪声添加到计算中时,这称为中央差分隐私。使用后一种方法,您查询数据集的次数越多,就越有可能泄露有关各个记录的信息。因此,中心模型要求不断搜索新的数据源以保持高度的隐私。

无论哪种方式,差异隐私的主要目标都是确保给定查询的结果不会受到单个记录的存在(或不存在)的影响。差异性隐私还使数据对潜在攻击者的吸引力降低,并有助于防止他们连接来自多个平台的个人数据。

实践中的差异隐私

差异性隐私已被政府,公司和研究人员广泛采用。该公司已经将其用于“避免披露” 美国人口普查,例如,和 苹果 使用差异性隐私来分析用户数据,从表情符号建议到Safari崩溃。 谷歌 甚至已经发布了 差异隐私库 用于公司的许多核心产品。

使用称为“弹性敏感度”的概念 发达 近年来,加州大学伯克利分校的研究人员将差分隐私扩展到了现实世界的SQL查询中。乘车共享服务Uber采用这种方法研究了从交通方式到驾驶员收入的所有内容,同时保护了用户的隐私。通过将弹性敏感度纳入需要大量用户数据才能将骑手与驾驶员连接起来的系统,该公司可以帮助保护其用户免遭窥探。

例如,考虑实现弹性敏感性如何保护著名的Uber用户,例如Ivanka Trump。正如安迪·格林伯格(Andy Greenberg)所写 有线:

“如果一个优步业务分析师询问曼哈顿中城目前有多少人在叫车—也许是为了检查供应量是否符合需求—伊万卡·特朗普当时正巧要求一个优步,答案不会是’尤其不能透露她的很多情况。但是,如果一个撬动的分析师开始对特朗普大厦周围的街区提出同样的问题,例如优步’弹性敏感度会在结果中增加一定程度的随机性,以掩盖伊万卡(Ivanka)当时是否可能要离开建筑物的情况。”

尽管如此,尽管有其所有优点,但大多数组织仍未使用差异隐私。它需要大量的数据集,计算量很大,并且组织可能缺乏部署它的资源或人员。他们可能也不想透露他们正在使用多少私人信息,并且有可能泄露。

另一个担心是,使用差异隐私的组织可能夸大了他们提供的隐私数量。公司可能声称使用差别隐私,但实际上可能会使用很高的ε值,从而限制了实际提供的隐私。

为了解决差异性隐私是否得到适当部署,Dwork与加州大学伯克利分校的研究人员Nitin Kohli和Deirdre Mulligan共同提议创建“ Epsilon注册中心”,以鼓励公司提高透明度。 “鉴于这些实施细节的重要性,因此需要在不同的隐私社区之间共享学习,”他们 在里面 隐私与保密杂志。 “为实现这些目的,我们建议创建Epsilon注册管理机构-一个公开的公共社区,了解有关差异隐私实施的知识,各种利益相关者都可以使用该知识体系来推动识别和采用明智的差异私有实施。”

最后要注意的是,组织不应仅依赖于差异性隐私,而应将其用作更广泛的武器库中的一种防御措施,以及诸如加密和访问控制之类的其他措施。企业应披露其用于分析的数据源,以及为保护数据所采取的步骤。将此类做法与具有较低epsilon值的差异性隐私相结合,将有助于帮助实现“大数据”的好处,同时减少敏感个人数据的泄漏,这将大有帮助。

查克·卡佩勒克(Chuck Kapelke)是该公司的传播专家 长期网络安全中心 加州大学伯克利分校信息学院的跨学科研究与合作中心。

致谢:该视频由Annalize Kamegawa制作动画。长期网络安全中心要感谢加州大学伯克利分校信息学院的博士生Nitin Kohli和加州大学伯克利分校信息学院的助理兼职教授Paul Laskowski。

苹果和谷歌为致力于独立,严格,深入的公共政策研究的非营利组织布鲁金斯学会(Brookings Institution)提供财务支持。