双语阅读

我们如何看待数据共享?

2019/11/22 14:55
收藏
对照中文英文原文
社交媒体和其他平台上的数据共享不仅损害了数据共享的用户的隐私,也损害了其他积极不参与此类数据共享的用户的隐私。

剑桥分析公司(Cambridge Analytica)的丑闻突显出,社交媒体平台允许企业从共享数据中推断用户和非用户信息的复杂方式。本专栏展示了平台用户和非用户特征之间的相关性,这意味着企业可以以低于均衡价格获得数据,意味着个人福利效率低下。作者对监管提出了一些建议,可以提高这些平台中用户和非用户的数据共享效率。

目前,数以亿计的用户正在使用社交媒体平台并分享他们的数据(单是Facebook就有超过25亿的月活跃用户)。这些数据通过日益复杂的机器学习和人工智能方法处理,以提供在线服务,以及社交媒体平台和第三方进行个性化广告。大多数经济学家和技术专家强调,通过改善消费者选择,并将数据投入到更多、更好的创新中去,数据对用户和整个社会都有好处。

然而,所有这些数据都有不好的一面。至关重要的是,社交媒体和其他平台上的数据共享不仅损害了数据共享的用户的隐私,也损害了其他积极不参与此类数据共享的用户的隐私

剑桥分析公司(Cambridge Analytica)的丑闻说明了大规模数据收集和共享的一些成本。Facebook允许剑桥分析公司从约27万名Facebook用户共享的数据中获取数百万人的私人信息。这些用户自愿下载了一款名为“这是你的数字生活”(This is your digital life)的应用程序,来描述他们的个性特征。该应用程序访问了用户的新闻提要、时间轴、帖子和消息,并显示了这27万人所连接的其他Facebook用户的信息。剑桥分析公司最终推断出了5000多万Facebook用户的详细信息。随后,该公司将这些数据用于设计个性化的政治信息,并在英国脱欧公投和2016年美国总统大选中,分别为脱欧阵营和共和党人候选人特朗普进行广告宣传

剑桥分析公司只是涉及整个行业类似做法的冰山一角。Facebook本身和其他第三方也采取了类似的策略。更重要的是,预测性大数据方法的本质是通过样本共享的数据来预测个体群体的行为或特征。这些方法的好处的提倡者强调,一个人分享的关于他们的偏好或健康问题的信息,对于理解影响其他具有相似特征的人的行为和疾病非常有用。但同样的逻辑也适用于隐私问题。当Facebook或其他公司能够预测那些没有分享数据的个人的行为时,这就相当于侵犯了隐私,而这些个人并没有同意这么做。以Facebook和其他社交媒体平台的数据为例,这些数据被用来预测谁会出现在反对政府的抗议活动中。不那么极端但同样重要的是,企业能够根据个人的位置、国籍、年龄和性取向来预测他们的行为。这可能会导致隐私的丧失,也可能带来潜在的好处(想象一下,例如,公司预测你哪天晚上会去哪家餐厅或酒吧)。

即使存在这些担忧,科技行业的许多人(以及专家)可能仍会辩称,它们的重要性不足以抵消数据带来的有利好处,因为他们的假设是,隐私担忧并不重要。这是以现有研究为基础的,大多数用户为保护自己的隐私而付费的意愿相对较低。然而,这一推论(隐含地)取决于这一假设,即这些揭露的支付意愿指标能够反映隐私的真正价值。当一个人的信息被别人披露时,情况就不一定是这样了。

我们的新论文开发了一个研究这些问题的概念框架。我们提出了一个模型,在这个模型中,一个垄断平台或一组相互竞争的平台可以从用户那里购买数据(明确地为数据付费,或含蓄地提供免费服务来交换用户的数据)。重要的是,个人的数据不仅能提供关于其自身特征的信息,还能提供关于其他用户(以及潜在的非用户)特征的信息。更具体地说,信息结构表示一个网络,其中两个个体之间的连接捕获了他们的信息之间的相关性。每个人对隐私的重视程度也不同。信息使平台或第三方能够评估个人的潜在特征,而更准确的评估为平台创造更大的价值。相反,从个人的角度来看,更准确的评估会导致更多的隐私泄露。

当一个人的数据只与她的特征、偏好或行为相关时,市场价格准确地反映了隐私的价值,平衡了数据共享的成本和收益。但当不同用户的信息相互关联时,情况就不一样了。下一个示例以简单的方式说明这一点。

考虑一个有两个用户的平台,如图1所示。平台可以获取或购买用户的数据,以便更好地评估用户的特征、偏好或行为。两个用户的相关数据是相关的,这意味着一个用户的数据可以让平台更准确地估计另一个用户的特征。该平台的目标是最小化用户特征的估计误差,或最大化关于用户特征的泄露信息。假设平台对用户泄露信息的估值(货币形式)为1,而第一个用户对其隐私的估值(同样是对其泄露信息的估值)为1/2,第二个用户对其隐私的估值为v>0。该平台向用户提供价格(通过付费或提供服务的方式),以换取用户的数据。每个用户可以选择是否接受平台提供的价格。在没有任何数据市场或交易成本限制的情况下,第一个用户总是会出售她的数据(因为她对隐私的估值为1/2,低于信息对于平台的价值)。但是,考虑到两个用户的特征之间的相关性,这意味着平台已经能够很好地估计第二个用户的特征。例如,假设用户数据之间的相关性非常高。在这种情况下,平台会从用户1的数据中获知几乎所有与用户2相关的信息,这就削弱了用户2保护自己数据的意愿。事实上,由于用户1几乎揭示所有关于她的信息,她愿意以非常低的价格出售自己的数据(大约为0)。但是一旦第二个用户出售她的数据,这也揭示了第一个用户的数据,因此第一用户只能对她的数据收取非常低的价格。因此在这个简单的例子中,瓶体将能够以大约为0的价格获取用户的数据,即使两个用户都有隐私担忧。被压低的数据价值低于隐私价值,产生了分布效应——平台从廉价数据中获益,用户无法因数据得到补偿。当v≤1时,由于数据对社会是有益的,均衡仍然是有效的——平台的收益超过了隐私泄露对用户的负效用。相反,当v>1时,均衡不再有效,并且事实上,它可以是任意的。这是因为第一用户通过出售她的数据而在第二用户上产生负外部性。

图1 评估两个用户之间的数据相关性

这个例子从我们的分析中获得了两个最重要的结论。首先,个人数据共享总是会给信息被泄露的其他人带来负外部性。这些负面影响可能不足以抵消平台使用这些数据带来的好处。但即使在这种情况下,它们也会产生分布效应(它们以牺牲用户为代价为平台带来好处)。然而,当其他一些用户高度重视他们的隐私时,这些负面影响可能会超过好处,导致过多的数据共享。其次,或许更微妙的是,个人数据共享既改变了数据对平台的价值,也改变了隐私对其他用户的价值。这是因为这些数据使平台能够更好地估计其他用户的特征,因此平台本身对其他用户的数据的使用会更少。类似地,一旦他们的信息被泄露,这些用户可能不再选择保护自己的数据。因此,他们可能会分享自己的数据,即使他们非常重视自己的隐私。这再次表明,在存在数据共享外部性的情况下,用户隐私的价值不能从他们公开的数据共享决策中推断出来。

我们的分析归纳了这个例子中的洞见,并提出了新的发现。

  • 首先,我们提供了相当弱的条件,在这种条件下,数据市场的均衡必然是低效率的。

特别是,在平台之间有竞争或无竞争的情况下,具有高和低价值的用户隐私之间的相关性都导致低效率。虽然这一结论相当普遍,但也有一些例外和需要加以说明。在某些情况下,这种相关性可能不足以降低效率,因为数据共享给低价值用户带来的好处是如此之大,以至于一个功利的社会规划者可能宁愿牺牲其他高价值用户的隐私。相反,即使没有这种相关性,也可能导致效率低下,因为低价值用户可能试图通过扭曲他们的平台选择或其他决策来避免负外部性。更重要的是,当只有高价值用户相互关联,并且每个用户都不愿意共享她的数据时,低效率也会产生。但该平台(或多个平台)可以利用它们在数据共享决策之前设定价格的能力所赋予的先发优势。然后,他们可以诱使所有用户共享他们的数据(这是因为当其他人共享他们的数据时,数据对高价值用户的价值会降低,因为她的更多信息已经被泄露了)。

  • 其次,除了效率低下之外,我们还表明,在某些情况下,数据市场可能会破坏剩余,当数据市场关闭时,(功利主义的)社会福利会更大。

当有足够多的高价值用户的隐私被其他用户的数据共享决策所损害时,就会发生这种情况。

  • 第三,我们发现,矛盾的是,平台之间的竞争并不需要解决这些效率低下的问题,事实上,这种竞争可能会降低福利。
  • 最后,我们提出了数据共享监管的新思路。

现有的技术方法侧重于匿名数据,这有助于限制共享数据的用户的暴露。然而,当面临风险的不是共享数据的用户本身,而是与她相关的个人的隐私时,这样的方案是没有用的。为了解决这一问题,我们提出了一种新的监管方案,其中数据事务以一种降低其与其他用户数据相关性的方式进行调节的。其主要思想是实现“去相关性”,即降低个人数据与那些不主动共享自己数据的人的信息之间的相关性。例如,用户不必直接与平台共享数据,而是可以将数据透露给中介机构,中介机构在与平台共享数据之前,会先清除与用户群体相关的信息。这种间接的数据共享安排可以限制平台了解群体内其他人的程度。

我们的论文对新兴但不断增长的数据市场和隐私经济学的文献有所贡献。在这个广阔的领域里有几个有趣的未来发展方向。

  • 首先,需要做更多的工作来研究不同平台和在线公司之间的数据竞争的影响,特别是为了阐明竞争限制或加剧数据外部性的条件。
  • 其次,模拟在线平台如何利用用户信息进行歧视定价和特定广告是重要的领域。在这方面,一个有趣的方向是调查用于设计个性化服务的个人数据应用是否可以与用于侵入式营销、价格歧视或误导性广告的应用分离开来。
  • 第三,在限制用户共享数据与他人之间的相关性(或限制数据外部性的其他方法)的现实方案上,需要做更多的工作。我们提出的具体机制是有启发性的,我们需要更系统地研究哪些限制是可以设计和实现的。一个相关的问题是如何保证数据中介的可靠性。
  • 最后,也是最重要的是,我们强调市场价格和当前用为保护隐私而采取的行动并未揭示用户对其隐私的重视程度,这凸显出需要进行仔细的实证分析,记录和估计数据对平台的价值,以及在存在数据外部性的情况下隐私对于用户的价值。
为提升阅读体验,智堡对本页面进行了排版优化 查看原文
评论