安全多方计算与差分隐私技术解析-编程实验室

计算私有数据

在数据驱动创新的时代，许多最具创新性的计算产品和解决方案都依赖于数据。当这些数据属于隐私数据时，保护数据安全、防止数据主体、所有者或用户的信息泄露给错误的一方至关重要。如何在保护隐私的同时，对敏感数据进行有用的计算？

本文将重新审视解决这一挑战的两种已被深入研究的方案：安全多方计算和差分隐私。MPC和DP是为了解决不同的现实世界问题和实现不同的技术目标而发明的。然而，由于它们都旨在使用私有信息而不完全揭示它，因此常常被混淆。为了帮助区分这两种方法，我们将讨论两者的能力和局限性，并提供它们各自可以发挥高效作用的典型场景。

我们关注的是这样一种场景：多个个体（有时是整个社会）可以从一项基于私有数据的计算中获得巨大效用，但为了保护隐私，他们不能简单地彼此共享所有数据或与外部方共享所有数据。

安全多方计算

MPC方法允许一组参与方在仅揭示计算结果的前提下，共同执行一项涉及所有方私有数据的计算。更正式地说，一个MPC协议使n个参与方，每个参与方都拥有一个私有数据集，能够以这样一种方式计算他们数据集并集的某个函数：计算所揭示的唯一信息是该函数的输出。

MPC可用于保护私人利益的常见情况包括：

拍卖：应公开中标金额，但不应透露任何关于未中标出价的信息。
投票：应公布每个选项的得票数，但不公布任何个人的投票内容。
机器学习推理：安全的两方计算使客户端能够向持有专有模型的服务器提交查询并接收响应，同时保持服务器对查询的私密性以及客户端对模型的私密性。

注意，参与方数量n可能非常小（例如，机器学习推理中的两个）、中等规模或非常大；后两种规模范围在拍卖和投票中都很常见。同样，参与方可能彼此认识（例如，部门教职员工投票中），也可能不认识（例如，在线拍卖中）。MPC协议在数学上保证了输入值的保密性，但不会试图隐藏参与方的身份；如果需要匿名参与，可以通过将MPC与匿名通信协议结合来实现。

尽管MPC看起来像魔术，但利用密码学和分布式计算技术，它是可以实现的，甚至是实用的。

差分隐私

差分隐私是一套统计学和算法技术，用于在不揭示数据贡献者与数据项之间映射关系的情况下，发布数据集的聚合函数。与MPC类似，我们有n个参与方，每方拥有一个数据项。参与方自身，或者更常见的是一个外部代理，希望计算参与方输入数据的聚合函数。

如果这项计算是以差分隐私的方式进行的，那么从输出中推断出的关于第i个输入xi的任何信息都不能与个体参与方Pi关联起来。通常，参与方数量n非常大，参与方彼此不认识，目标是计算集合{x1, …, xn}的统计属性，同时保护个体数据贡献者{P1, …, Pn}的隐私。

更详细一点，如果满足两个属性，我们说一个随机化算法M在关于聚合函数f方面保持差分隐私。首先，对于每一组输入值，M的输出都密切逼近f的值。其次，对于第i个个体输入可能值的每一对不同的（xi, xi’），分布M（x1, …, xi, …, xn）大约等同于分布M（x1, …, xi′, …, xn）。两个分布之间的最大“距离”由一个称为隐私参数的参数ε来表征，M被称为ε-差分隐私算法。

请注意，差分隐私算法的输出是一个从函数f值域上的分布中抽取的随机变量。这是因为DP计算需要随机化；特别是，它通过“添加噪声”来工作。所有已知的DP技术在隐私参数和计算输出的效用之间引入了一个显著的权衡。较小的ε值提供更好的隐私保证，但需要更多的噪声，从而产生准确性较低的输出；较大的ε值导致较差的隐私界限，但需要较少的噪声，从而提供更好的准确性。

MPC与DP的能力与局限性

现在我们来回顾一下这两种方法的一些优缺点，并强调它们之间的一些关键区别。

安全多方计算

MPC已经被广泛研究了40多年，并且有强大的通用结果表明，可以使用各种密码学和编码理论技术、系统模型和对手模型为所有函数f完成计算。

尽管存在完全通用的安全协议，但MPC在现实世界中的部署有限。一个障碍是协议的复杂性——特别是功能最强大的通用解决方案的通信复杂性。目前关于MPC的许多工作都在解决这个问题。

在MPC应用于特定场景之前，必须回答的更基本的问题包括所计算的函数f的性质以及计算所在的信息环境。为了解释这一点，我们首先注意，MPC计算中的参与者集合不一定与接收计算结果的参与方集合相同。这两个集合可能完全相同，一个可能是另一个的真子集，它们可能有一些（但不是全部）共同元素，或者它们可能完全不相交。

尽管安全的MPC协议（可证明地！）除了可以从结果推断出的信息外，不会向接收者透露任何关于私有输入的信息，但即使这样也可能透露得太多。例如，如果结果是全民公投中支持和反对某个提案的票数，并且该提案获得一致通过，那么接收者就会知道每个参与者是如何投票的。公民投票机构可以通过使用不同的f来避免泄露私人信息，例如，如果赞成票数至少是参与者人数的一半，则结果为“是”，否则为“否”。

这个简单的例子展示了隐私保护计算中一个普遍存在的权衡：如果参与者愿意在极端情况下向接收者透露私人信息，他们就可以计算信息量更大的函数；如果他们愿意计算信息量较少的函数，则可以在极端情况下实现更高的隐私。

除了仔细指定函数f之外，MPC的用户还必须评估部署MPC的信息环境，特别是必须避免接收者将计算结果与辅助信息结合时可能发生的灾难性隐私泄露。

请注意，这些潜在的敏感信息并非由MPC协议泄露，该协议除了揭示总损失金额（即函数f的值）外不透露任何信息。相反，它是通过将计算结果与计算完成前参与者已有的信息相结合而推断出来的。任何揭示函数f精确值的计算方法都会带来当结果与辅助信息结合时输入隐私将被破坏的相同风险。

差分隐私

DP框架提供了一些优雅、简单的机制，可以应用于输出是实数向量的任何函数f。本质上，可以用适当定义的随机值独立地扰动或“加噪”f(x)的每个分量。为隐藏任何单个数据主体的贡献（或参与）而必须添加的噪声量由隐私参数以及单个输入能改变f输出的最大量决定。

DP技术也受益于强大的组合定理，该定理允许在一个应用中将单独的差分隐私算法组合起来。特别是，独立使用一个ε1-差分隐私算法和一个ε2-差分隐私算法，当合在一起时，是(ε1 + ε2)-差分隐私的。

DP适用性的一个限制是需要添加噪声——这在某些应用场景中可能是不可接受的。更根本的是，函数f的ℓ1灵敏度给出了为达到给定隐私参数ε而必须添加到输出中的噪声量的上界，同时也给出了下界。如果f的输出受输入中单个异常值的强烈影响，那么就不可能同时实现强大的隐私和高精度。

DP最初设计用于计算统计聚合，同时保护个体数据主体的隐私；特别是，它是针对实值函数设计的。此后，研究人员为非数值计算开发了DP技术。

结论

总之，安全多方计算和差分隐私都可用于在保护数据隐私的同时对敏感数据进行计算。两套技术之间的重要区别包括：

隐私保证的性质：使用MPC计算函数y = f(x1, x2, …, xn)保证结果的接收者仅获知输出y，别无其他。例如，如果恰好有两个输入向量被f映射到y，那么无论这两个输入向量在多少分量上不同或差异有多大，输出y的接收者都无法获得关于这两个输入向量中哪一个是MPC计算的实际输入的信息。另一方面，对于任何不映射到y的第三个输入向量，接收者确定地知道MPC计算的实际输入不是这第三个向量，即使它仅在一个分量上与前面两个中的一个不同，并且差异非常小。相比之下，使用DP算法计算f保证，对于任何仅在一个分量上不同的两个输入向量，计算（随机化的！）结果大致无法区分，无论这两个输入向量上f的精确值是相等、接近相等还是极其不同。直接使用组合可以为在c个分量上不同的输入提供隐私保证，代价是将隐私参数增加c倍。
典型用例：DP技术最常用于计算非常大的数据集的聚合属性，通常，数据贡献者的身份是未知的。这些条件都不是MPC用例的典型特征。
精确答案与带噪答案：MPC可用于计算所有函数f的精确答案。DP要求添加噪声。这在许多统计计算中不是问题，但在某些应用场景中，即使是少量的噪声也可能是不可接受的。此外，如果f对输入数据中的异常值极其敏感，那么为实现有意义的隐私而需要的噪声量可能会影响有意义的准确性。
辅助信息：将DP计算的结果与辅助信息相结合不会导致隐私损失。相比之下，任何返回函数f精确值y的计算方法（包括MPC）都有这样的风险：如果y与辅助信息结合，接收者可能能够推断出一些关于输入数据的信息，而这些信息并非仅由y本身所暗示。

最后，我们想指出，在某些应用中，可以同时获得MPC和DP的好处。如果目标是计算f，而g是f的一个在同时实现良好隐私和准确性方面的差分隐私近似，那么一个自然的方法是使用MPC来计算g。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）