算法定价与AI“串通”:反垄断领域的新挑战

2019/02/28 12:55
收藏
即使在没有受到具体指示,甚至根本无法相互交流的情况下,算法也可能学会相互串通。相比之下,人在没有明确交流手段的环境下事实上甚至无法做到相互协调。

本文由智堡翻译,原文为公开版权内容,内容仅代表作者观点,不代表智堡的立场和观点,译文仅供教育及学术交流目的使用。

原文标题:Artificial intelligence, algorithmic pricing, and collusion,作者:Emilio Calvano, Giacomo Calzolari, Vincenzo Denicolò, Sergio Pastorello,发表日期:2019年5月13日,原文链接:https://voxeu.org/article/artificial-intelligence-algorithmic-pricing-and-collusion,译者:张一苇

原文2019年2月3日首发于经济与政策研究中心 (CEPR) 政策门户网站VOX。

摘要

反垄断部门担忧,在电商行业使用愈加普遍的自主定价算法,可能会学会相互“串通”。本文利用人工智能在控制环境中提供的定价算法实验,证明了即使是相对简单的算法,也能系统地学会采用复杂的串通策略。最令人担忧的是,它们可以在事先不知道自身运作环境、无法互相交流、也没有专门被设计或受指示要与彼此串通的前提下,学会通过试错相互串通。

正文部分

还记得上次网购的经过吗?你所支付的价格,大概率不是由人类来决定的,而是由软件算法决定的。早在2015年,亚马逊上就已有超过三分之一的卖家采用了自动定价,自那之后这一比例肯定还在攀升——随着供应统包定价系统 (turnkey pricing systems) 的再定价软件行业的增长,即使是业务规模最小的卖家,现在也能承担得起算法定价。

与航空公司和酒店等企业长期使用的传统收入管理系统不同(在这些系统中,程序员事实上依然肩负着做出策略选择的责任),如今如雨后春笋般出现的定价程序比它们更加“自主” ('autonomous')。这些新算法采用了与人工智能 (AI) 程序相同的逻辑,后者最近在复杂的战略环境中,如围棋或国际象棋等博弈中,取得了超人的成绩。也就是说,算法只需由程序员指定其行动的目的——赢得比赛,或者实现利润的最大化。不需要向算法传授游戏的规则与玩法,它自己会从经验中学习。在训练阶段,算法通过对模拟环境中的克隆场景进行积极的实验,在可选的策略方案中更频繁地采用业绩最佳的策略。在这个学习过程中,算法几乎或完全不需要来自外部的指导与干预。一旦学习完成,算法就能立即投入运作。

从反垄断的角度来看,人们担心这些自主定价算法可能会各自得出结论,要想获得尽可能高的利润,就必须避免价格战。也就是说,即使在没有受到具体指示,甚至根本无法相互交流的情况下,算法也可能学会相互串通。这确实是个问题。首先,卖方角度而言的“良好的业绩”,并不利于消费者和经济效率。第二,在大多数国家(包括欧洲和美国),这种不依赖明确的意图和交流的“默许”串通 ('tacit' collusion),目前未被界定为非法行为,理由是它不太可能在人和人之间发生,即使确实发生,也很难侦测。因此传统观点认为,激进的反垄断执法可能会产生许多假阳性结果(即冤枉无辜行为),而宽容的政策则会产生相对较少的假阴性结果(即为反竞争行为开脱罪名)。然而,随着AI定价的出现,人们担心两种执法失误之间的平衡可能会发生改变。虽然到目前为止还没有实际证据表明自主算法之间存在相互串通,但反垄断部门正在积极讨论相关问题。

关注这一问题的人 (e.g. Ezrachi and Stucke 2015) 认为,AI算法在许多任务场景中的表现已经优于人类,没有理由认为在定价上结果会有任何不同。这些评论者还提到一份计算机科学文献,其中记录了在独立定价算法反复交互的模拟中,某种程度的非竞争性高价的出现。一些学者正在开发新的途径,使判别AI相互串通的非法行为成为可能。

怀疑论者则反驳说,在这些模拟结果中,AI并未采取典型意义上的串通行为,因而对真实市场不具有代表性 (e.g. Kuhn and Tadelis 2018, Schwalbe 2018)。这些怀疑论者认为,在没有沟通的情况下实现真正的串通,对人类而言尚且任务艰巨,对于最聪明的AI程序来说也同样是一项很难完成的任务,特别是在经济环境具有随机性的情况下。模拟中发现的任何定价过高的现象,都可能是由于算法未能找到竞争均衡水平。若果真如此,那么就没什么理由好担心,因为随着AI的进一步发展,这一问题可能会自动消失。

最近的一份论文 (Calvano et al. 2018a) 中,为这场政策辩论提供了有用的信息。我们构建出了AI定价的代理因子,让它们在控制环境中反复交互,再现经济学家眼中的典型串通行为,即同步做出行动、定价完全灵活的一场重复定价博弈。我们的研究结果表明,在这个框架下,即使是相对简单的定价算法,也系统地学会了复杂的串通策略。这些策略所施加的惩罚与(价格)偏差的程度成正比,偏差的期限长度有限,价格会逐步回归到偏差前的水平。

图1说明了算法自主习得的惩罚策略。从算法收束的(串通)价格水平(灰色虚点线)出发,我们强行覆盖了其中一种算法的选择(红线),迫使它在一段时间内偏向竞争性或纳什均衡价格水平(橙色虚线)。另一种算法(蓝线)始终按照它习得的战略来运作。在这段外源性偏差之后,两种算法重新获得对定价的控制权。

注:蓝线和红线显示了在红线算法最初偏离串通价格之后,两种自主定价算法(代理因子)的定价水平随时间推移的变化情况。

图上显示了在最初偏离串通价格之后的定价走势。显然,偏差会立即受到惩罚(蓝线价格在红线价格偏离后立即出现下滑),使偏差行为本身无利可图。然而,惩罚并不如预想中那般严厉(即直接回归到竞争性价格水平),且只是暂时的;之后,两种算法都将逐步回归到偏离前的价格水平。

尤其值得注意的是偏离算法本身的行为。显然,它不仅要对对手作出反应,而且要对自己的行动作出反应。(如果它只对竞争对手作出反应,就没有理由在t=2期间削减价格,因为竞争对手在t=1期间仍以串通水平定价)。这种自我反应行为是存在真正串通的明显标志,否则很难从其他方面做出解释。

我们发现的相互串通现象通常是局部的——算法最终并不会收束于垄断价格水平,而是比该水平稍微低一点的位置上。不过我们发现,算法相互串通的倾向是非常顽固的——即使活跃使用算法的公司数目扩大到三到四个,各自算法的条件不对称,并全部置于随机环境中运作,在算法之间仍盛行实质性的相互串通行为。相比之下,以人为对象的实验文献得出的一般结论是,除了最简单的案例(两个代理因子的条件完全对称且不存在不确定性)之外,人和人之间在没有明确交流手段的环境下事实上根本无法相互协调。

最令人担忧的是,这些算法不会留下任何协同行动的痕迹——它们纯粹通过试错 (trial and error) 学会串通,对运作环境不需要事先了解,彼此之间没有交流,也没有专门被设计或受指示要与彼此串通。这对竞争政策构成了真正的挑战。在考虑政策举措之前,还需要进行更多的研究,但反垄断部门呼吁警惕自主定价算法的理由,似乎是相当充分的。


译者:张一苇

来源:Calvano, E., Calzolari, Denicolo, etc., Artificial intelligence, algorithmic pricing, and collusion, VOX - CEPR Policy Portal, Feb. 3rd 2019

评论
微信扫一扫
问题反馈更及时