潘多拉的代价:“全知”的算法vs.”无知“的权利

2019/01/03 12:58
收藏
世界上最宝贵的资源不再是石油,而是数据。随着数据成为现代世界最有用的商品之一,它同时也应转变为最“无价”的商品。在这个“全知”算法的时代里,我们怎样才能选择“不知”?

We Need to Save Ignorance From AI

在这个“全知”算法的时代里,我们怎样才能选择“不知”?

In an age of all-knowing algorithms, how do we choose not to know?

作者Christina Leuker和Wouter Van Den Bos,系马克斯·普朗克人类发展研究所 (MPI für Bildungsforschung,位于德国柏林的著名社科研究机构) 博士生研究员 (前者) 与研究科学家 (后者)。

正文部分

在柏林墙倒塌之后,东德公民们均有机会查阅斯塔西 (Stasi,国家安全部)——臭名昭著的东德秘密警察机构——围绕他们个人构建的档案。时至今日,据估计仅有10%的人真的去翻看了自己的“黑材料”。

2007年,詹姆斯·华生 (James Watson),脱氧核糖核酸 (DNA) 双螺旋结构的发现人之一,要求医疗机构不要向他提供任何有关其本人载脂蛋白E(ApoE) 基因的信息,该等位基因是阿尔兹海默症(俗称老年痴呆症)的已知风险因素之一。

民意调查中,大部分人表示即便能知道自己确切的死亡日期,他们也宁愿选择不知道——就连大喜事的未来日期也不想知道。

上述都是“有意无知” (willful ignorance) 的例子。 苏格拉底可能是说过“未经审视的人生是不值得过的”,霍布斯也许是认为“好奇心是人类的主要欲望”,但也有许多非常古老的故事,教诲我们知道得太多同样危机四伏。从亚当和夏娃偷尝智慧之果,到普罗米修斯窃取火的秘密,这些故事告诉我们,生活需要在选择知道和选择不知之间达到微妙的平衡。

放慢脚步?:硅谷文化将“快速投入实验”视为金科玉律,但在处理我们的个人数据上这恐怕事与愿违。 图源:Frederic Legrand - COMEO/ Shutterstock.com

但若是一项技术的出现,对这种平衡造成难以预料的改变,并打乱我们何时保持无知的决定,又该怎么办呢?这项技术就在眼前:它叫做人工智能 (AI)。

AI可以从大数据当中找到规律,再运用相对较少的数据进行比对。例如,只需要分析几条Facebook“喜欢”,就可以预测你的个性、种族和性别。另一种计算机算法号称仅基于他们的照片就可以区分同性恋和异性恋男性,准确率高达81%,区分同性恋和异性恋女性的准确率为71%。一种名为COMPAS(“替代制裁的惩教罪犯管理画像”)的算法,可以从青少年逮捕记录、家庭暴力记录、受教育程度、社会孤立程度和休闲活动当中预测犯罪分子的累犯行为,准确率为65%。

在上述每一个案例中,结论的性质都与所用数据的性质发生了惊人的背离(即便部分结果的有效性仍在争论中)。 这使得我们很难控制自己所知的信息。在这个领域当中也没有监管条例可以帮助我们选择“不知”:“无知的权利”并不受到保护。

这就助长了一种“快速行动、横冲直撞” ("move fast and break things",Facebook的老座右铭) 的社会氛围。但是一旦涉及到我们个人隐私的细节,“横冲直撞”真的是我们想做的事吗?

为什么要保护“无知”的权利?

数十多年来各国政府和立法者们深知,有些潘多拉魔盒最好永远别被打开。与保护个人无知权相关的成文法律,至少可以追溯到上世纪90年代。例如,1997年《欧洲人权和生物医学公约》(The European Convention on Human Rights and Biomedicine) 规定,“每个人都有权知晓任何被采集的个人健康信息。不过,选择不被告知的个人意愿应当得到尊重。”同理,世界医学协会 (World Medical Association) 1995年《患者权利宣言》(Declaration on the Rights of the Patient) 指出“患者有权提出明确要求不被告知[他/他的医学数据],为保护他人生命安全所需的情况除外。”

然而,为AI编写无知权法则 (right-to-ignorance laws) 是一个截然不同的话题。虽然医疗数据受到严格监管,但AI所使用的数据往往掌握在恶名在外、不受监管的盈利性科技企业手中。AI处理的数据类型也更广泛,因此任何对应的法律法规都需要更广泛地理解无知权的涵义。心理学上对有意无知的研究,将有助于设计人工智能的无知权法则。但令人惊讶的是,这个话题作为严谨科学探究的主题,长期以来一直遭到忽视;这或许是因为存在一种隐含假设,即刻意回避信息是非理性的。

然而,最近,心理学家Ralph Hertwig和法律学者Christoph Engel发表了一篇针对有意无知背后动机的分类法 (taxonomy) 研究。他们识别出的各类动机中,有两组在解释面对AI时人对无知的需求上很有帮助。

第一组动机围绕公正性 (impartiality) 和公平性 (fairness)。简单地说,知识有时会腐蚀判断力,而我们常常选择有意无知作为应对的方式。例如,学术论文的同行评审通常是匿名的。大多数国家的保险公司在将客户录入保险计划前,也不得了解客户健康状况的所有细节;他们只能获知一般而言的风险因素。这种考虑对AI很有帮助,因为AI很容易产出存在高度偏见的信息结果。

第二组相关动机是情绪管理 (emotional regulation) 和避免后悔 (regret avoidance)。 Hertwig和Engel写道,有意无知可以帮助人们保持他们“所珍视的信念”,并避免“精神上的不适,恐惧和认知失调。”有意无知在人们生活中其实非常常见。大约90%的受访德国人希望避免因“预知死亡和离婚等负面事件”而产生的负面情绪,40%-70%的人同样不想了解正面事件,以帮助保持“来自惊喜和未知的积极情绪”,比如在知道胎儿性别前的兴奋感。

这些动机可以帮助我们理解在人工智能面前保护无知的必要性。例如,AI的“同性恋雷达” (gaydar) 算法的潜在好处无限接近于零,却在公正性和公平性方面构成巨大的潜在成本。正如《经济学人》所述,“在同性恋仍不为社会所接受或仍属非法的地区,这样算法的存在可能对人身安全构成严重威胁。”同理,NtechLab目前正在开发的种族探测器的所谓好处,与对公正性和公平性造成的负面影响相比显得苍白无力。COMPAS累犯预测软件的使用具有比人为识别更高的准确性,但正如Dressel和Farid在《科学进步》上所述,“(结果)并不像我们想要的那般准确,尤其是当我们从这对被告未来造成的重大影响角度来看时”。预测个人预期寿命的算法,如Aspire Health开发的算法,并不会让客户的情绪调节变得更轻松。

这些例子说明了识别无知背后个人动机的效用,并展示了“选择知道还是无知”这一问题的复杂问题,特别是当这一问题涉及AI时。对于集体无知 (collective ignorance) 何时能为公众带来好处或符合道德规范,没有现成的答案。理想的方法是单独考虑每个案例,进行风险-收益分析。理想情况下,鉴于辩论的复杂性及其后果的严重性,该分析应当公开进行,囊括不同利益相关者和专家的意见,并考虑所有可能的未来结果,包括最坏场景。

这一切听起来是非常繁琐——事实上,在大多数情况下这么做可能根本不可行。那么我们该如何大刀阔斧地处理这件需要精细操作的事情呢?

更加完善的数据道德法规

一种方法是控制机器或对机器设限,让他们在根据已经采集的数据进行分析时只能给出一定类型的推论。例如,我们可以“禁止”司法算法使用种族作为预测变量,或者将性别排除在潜在求职者的预测分析之外。但这种方法存在问题。

首先,对大公司采用的数据设限,不仅成本昂贵在技术上也存在困难。这将要求这些公司开源他们的算法,而大型政府机构必须不断对它们进行审计。此外,一旦采集了大数据集,就有很多方法可以用迂回的方式推断出“禁忌的知识”。假设使用性别信息来预测肄业率被宣布为非法操作;那么变量“拥有汽车的类型”和“最喜欢的音乐类型”理所当然地会被当作性别的代理变量,执行二阶推断后得到的预测结果,仍与直接用性别进行预测的结果相同。尽管企业可能抱着良好的初衷,但有关性别的推断甚至可能在偶然中被纳入算法。这些二阶推断的存在使算法的审计任务更加艰巨。分析中包含的变量越多,二阶推断发生的可能性就越大。

保护无知权利的更激进、可能更有效的方法是先一步防止数据被采集。例如,在2017年的一项开创性举措中,德国通过立法,禁止自动驾驶汽车通过种族、年龄和性别识别街道上的人。这意味着汽车永远无法通过这些类别的数据做出其行驶决策——特别是在事故不可避免时采取的应对决策。

“电车难题”:麻省理工学院开设的网站 moralmachine.mit.edu 通过模拟自动驾驶汽车需要做出决策的案例,利用应试者反馈的选择数据,测试人类自身的道德直觉。图源:MIT

采用同样的思维方式,欧盟在2018年5月生效的新通用数据保护条例(GDPR)中规定,仅允许公司采集和存储最低限度的用户数据,以提供特定的、说明的服务,在数据使用方式上还要征得用户的同意。对数据捕捉的这种限制也可以防止二阶推断的滥用。GDPR路线面临的一个重要阻碍,是企业在决定自身服务目标上有着非常自由的裁决权。例如,现已关闭的Cambridge Analytica的明确目标,是评估用户的个性,因此被其利用并引发大范围争议的Facebook数据集,从技术上讲符合GPDR的指导方针。同理,GPDR虽然专注于数据使用与给定服务之间的一致性,但并未排除我们认为在道德上存在疑问的数据类别,也不会完全阻止企业从数据经纪商处购买特定用途之外的数据,只要企业能够获得用户同意——事实上许多人仅为了相对微薄的激励手段,就同意与企业共享他们的个人数据。研究人员发现,一些麻省理工学院的学生会为了一片比萨饼“出卖”他们朋友的联系方式。显然需要对个人数据的使用设置进一步的限制,但究竟要多少才足够?

美国社会活动家和程序员Richard Stallman给出了这样的答案:“有太多方法用数据来伤害人们,所以唯一安全的数据库,就是从未被采集过的数据库。”但对数据采集限制得太严重,可能会阻碍技术发展并令我们能从AI中获得的好处大打折扣。

应该由谁来做出权衡?应该由我们自己来。

我的数据我做主

在大多数情况下,上述讨论的“数据”实际上是你、我、他这些具体个人的所有物。一直以来我们想都不想就把数据提供给了那些五花八门的App,而从未考虑过对应的后果。事实上,长时间以来我们是如此轻易地交出自己的数据,以至于已经忘记了这些数据首先是我们自己的。将这些数据收回,可以让我们独立做出决定,是否有我们想知道或不想知道的东西。将数据所有权恢复给合法的所有者——我们自己——巧妙地解决了上述讨论中的许多艰难挑战。它避免了制定数据相关的、具有前瞻性的通用指导方针的需要。取而代之的,是数百万人根据他们自己的是非观念,决定如何使用他们自己的数据。我们都可以实时响应企业对数据的不断变化的用途,根据企业对待我们数据的方式给予企业惩罚或奖励。

对于“还数据于人民”的必要性,计算机科学哲学家Jaron Lanier提出了一条额外的经济论据。他认为,我们有权通过将个人数据出售给大公司,从中获取经济利益。当然这条路线也存在两大问题。首先,它会使数据使用和所有权的道德界限陷入混乱。免费提供数据的意愿本身,就是对特定数据用途的道德完整性的良好试金石;少数族群中有多少人会愿意为了“同性恋雷达”这样的脸部识别App,免费提供他们的数据?要是提供数据可以换来金钱报酬,他们又会如何选择呢?而若数据用途是为了帮助寻找治愈癌症的方法,大多数人都乐于免费提供自己的数据。其次,对个人数据赋予(高昂的)经济价值,可能会迫使人们共享他们的数据,并使数据隐私成为富人的特权。

而且,光是人们自发的行动是远远不够的;还需要社会机构的集体行动。即使只有一小部分人口共享了他们的敏感数据,仍有可能得出高准确性推论并遭到大多数人的反对。并非所有人都能在做出决定时意识到这一点。为了防止造成不必要的后果,我们需要对该话题开展充分的公开辩论,并建立额外的法律保障。

《经济学人》的文章中曾写道,世界上最宝贵的资源不再是石油,而是数据。但数据与石油有很大不同。数据是一种无限的资源,由个人所拥有,且最好在没有任何交易性经济价值的前提下进行交换。将利益从石油中剥离,石油市场就会消亡。将利益从数据中剥离,可以作为我们创建和维护道德标准所需的空间的第一步,这些标准可以在AI普及后继续存在,并为管理集体无知铺平道路。换句话说,随着数据成为现代世界最有用的商品之一,它同时也应转变为最“无价”的商品。


译者:张一苇

来源:Leuker, Christina, V. Den Bos, Wouter, We Need to Save Ignorance From AI, Nautilus - Numbers/ Artificial Intelligence, Jun. 14th 2018