1、囚徒困境及其克服第 3 章囚徒困境及其克服1.多种情景,一个思想(美)迪克西特,(美)奈尔伯夫 著,董志强 等译作者: 书名:妙趣横生博弈论:事业与人生的成功之道 以下的情景有何共同点?位于同一个街角的两家加油站,或者同一片街区的两家超市,有时会彼此展开激烈的价格战。在美国大选活动中,民主党与共和党通常都会采取中间政策,以吸引那些处于政治光谱中翼的选民,却忽略了他们那些分别持极“左”或极右态度的核心支持者。“新英格兰渔业的多样性和生产力曾经是无可匹敌的。然而在过去的一个世纪,由于过度捕捞而最终导致物种相继灭绝已成为一种趋势。大西洋比目鱼、海鲈、黑线鲟和黄尾比目鱼(均被列入了)商业灭绝的物种行列
2、。”答对了也没有奖励毕竟,囚徒困境是本章讨论的主题。但是,正如我们在第 2 章中所做的,我们借此机会指出,博弈论的一般概念性框架,可能有助于我们理解各种各样的变体以及看似无关的现象。我们还应该指出的是,毗邻的商店并不经常忙于打价格战,政党们也并非总是围绕权利中心而战。事实上,分析和说明这类博弈中的参与者如何能避免和解决困境,才是本章的一个重要部分。在约瑟夫海勒(Joseph Heller)的著名小说第 22 条军规结尾,第二次世界大战胜利在望。尤塞里安不想成为胜利前夕最后一批牺牲者,因为这对于战争结果毫无影响,他向上司丹比少校解释道。丹比问:“可是,尤塞里安,如果大家都这么想呢?”尤塞里安答道
3、:“那么,我若是不这么想,岂不就成了大傻瓜?”答案:这些都是囚徒困境的实例。就像冷血第 1 章中讲述的对迪克赫克考克和佩里史密斯的审讯,当人人都按照自己的个人利益行事时,每个人都有其个人动机,最终采取了对各方都不利的行为。若其中一个人坦白,那么另一个人最好也坦白,以免因抗拒从严而遭到严厉判决;反之,若其中一个人坚持沉默,另一人却可以通过坦白从宽大大减轻自己的刑罚。的确,促使坦白的力量实在太强大了,以至于每个囚徒都有坦白的动机,不论双方是真有罪(正如冷血中的情况),还是明明无罪却被警方诬陷(正如电影洛城机密中的情况)。价格战也是一样。如果奈克森加油站的汽油定价较低,那么卢纳科加油站最好也降低自己
4、的价格,以免失去太多的顾客;如果奈克森加油站的汽油价格较高,那么卢纳科加油站可以通过制定低价,将奈克森加油站的一些顾客吸引过来。但是,当两家加油站的价格都较低时,它们谁也不会盈利(虽然顾客的情况得到了改善)。在美国大选中,如果民主党采用吸引中间派的竞选策略,那么,共和党要是只迎合他们那些处于经济和社会右翼的核心支持者,就很可能失去这些中间派选民的支持,从而导致大选失败;反之,如果民主党只迎合其在少数民族和工会中的核心支持者,那么共和党可以通过采取更加中间的态度,赢得中间派的支持,从而赢得绝大多数的选票。在过度捕捞案例中,如果所有其他人都有节制地捕捞,那么单凭一个渔民的过度捕捞并不会在很大程度上
5、造成渔业的消耗殆尽;但是,如果所有其他人都过度捕捞,那么任何一个试图单枪匹马保护渔业的渔民都是傻瓜。这样,最终结果就会是过度捕捞和物种灭绝。而在第 22 条军规中,尤塞里安的逻辑,正是使得人们很难继续支持一场败仗的原因。2.一段小小的历史(美)迪克西特,(美)奈尔伯夫 著,董志强 等译作者: 书名:妙趣横生博弈论:事业与人生的成功之道 对于这个涵盖了经济、政治和社会诸多活动的囚徒困境博弈,理论家们当时是如何构造和命名的呢?这要追溯到博弈论学科早期的历史。作为博弈论先驱之一的哈罗德库恩(Harold Kuhn)在 1994 年诺贝尔奖颁奖典礼的专题讨论会上,讲述了下面的故事。那是1950 年春天
6、,埃尔塔克(Al Tucker)在斯坦福大学学术休假,由于办公室紧缺,他住进了心理学系。有一天,一位心理学家敲开了他的房门,问他正在做什么。塔克回答:“我正在研究博弈论”,心理学家就问他能否就他的研究举办一次研讨会。为了那次研讨会,塔克发明了“囚徒困境”作为博弈论、纳什均衡以及与之伴随而来的非社会意愿均衡的例子。作为一个真正富有创意的例子,囚徒困境博弈激发了许多学术论文乃至几本巨著。其他人的说法则略有不同。据他们所说,囚徒困境的数学架构早在塔克之前就形成了,这可以归功于两位数学家,即就职于兰德公司(美国冷战时期的智囊团)的梅里尔弗勒德(Merrill Flood)和梅尔文德雷希尔(Melvin
7、 Dresher)。塔克的才华在于,他发明了这个故事来阐释数学原理。之所以称它为一种才华,是因为它的展示方法可以形成或者打破一种思想;一种令人难忘的展示方法能够传播开来,并被大多数思想家更好更快地吸收,而一种乏味枯燥的展示方法可能会被人忽略、遗忘。一个直观的展示我们用一个商业实例,来提出表示和求解该博弈的方法。彩虹之巅(Rainbows End)和比比里恩(BBLean )是两家互为竞争对手销售服装的邮购公司。每年秋天,它们都要打印出其冬季产品目录单,并邮寄出去。且每家公司都必须遵守其产品目录上印刷的价格。由于产品目录的准备时间比邮购窗口开放的时间长得多,因此,两家公司必须在不知道对方价格的情
8、况下,同时做出定价决策。它们很清楚,产品目录是给一些共同的潜在顾客看的,而这些顾客很聪明,他们不断追求低廉的价格。这不仅包括了从中国供应商那里购买衬衫的成本,也包括运送至美国的运输成本、出口税以及存货成本和订单履行成本。换句话说,总成本包括所有与该产品相关的成本。这样规定的目的是为了全面度量经济学家所谓的边际成本。两家公司的产品目录上通常都重点突出一件几乎完全相同的商品,如高档格子衬衫。对每家公司而言,该衬衫的单位成本为 20美元。 它们估计,如果它们都对这种商品定价 80 美元,那么,每家公司将销售出 1 200件衬衫,这样,每家公司都将得到(8020)1 20072 000 美元的利润。而
9、且,事实证明,这个价格能使它们的共同利益最大:如果两家公司合谋起来,统一定价,那么 80 美元是使他们的联合利润最大化的价格。这两家公司还估计出,如果其中一家公司把价格降低 1 美元,而另一家的价格保持不变,那么降价的公司将得到额外的 100 名顾客,其中 80 名是从另一家公司转移过来的顾客,20名是新顾客。他们可能决定买下价格较高时未买的衬衫,也可能从当地购物中心的某个商店转移到这家公司。因此,每家公司都有动机制定低于对方公司的价格,以得到更多的顾客;我们给出这个故事的主要目的在于,找出这些动机是如何影响双方的行动的。首先,我们假设每家公司只有两个价格选择:80 美元和 70 美元。 如果
10、一家把它的价格降至 70 美元,而另一家公司仍然定价 80 美元,那么,降价者将得到额外的 1 000 名顾客,而另一家则失去 800 名顾客。这样,降价者售出 2 200 件衬衫,而另一家的销售量降到400 件;降价者的利润为(7020)2 200110 000 美元,而另一家公司的利润为(8020)40024 000 美元。这个规定,尤其是只有两种可能的价格选择这个假设,只不过是为了以尽可能简单的方式,构造出这类博弈的分析方法。在以后的章节,我们将允许公司有更大的价格选择自由。托马斯谢林在区分哪个赢利属于哪个参与者时,发明了这种用同一个表格表示两个参与者的赢利的方法。他用过分谦虚的笔触写道
11、:“假如真有人问我有没有对博弈论做出一点贡献,我会回答有的我发明了用一个矩阵反映双方赢利的方法。”事实上,谢林提出了很多在博弈论中至关重要的概念聚焦点、可信度、承诺、威胁与承诺、颠覆,等等。在接下来的章节中,我们将会经常引用他和他的研究成果。如果两家公司都把价格降至 70美元,结果会怎么样?如果它们都降价 1 美元,虽然现存的顾客数量不变,但它们各自都得到了 20 名新顾客。这样,当它们都把价格降低 10 美元时,就能各自在原先 1200 件的基础上多销售 200 件。即每家公司的销售量是 1 400 件,获得的利润为(7020)1 40070 000 美元。我们希望能够直观地展示出利润结果(
12、即公司在博弈中的收益)。但是,我们无法运用第2 章中的博弈树来做到这一点。因为在这里,两个参与者是同时行动的。参与者在采取行动时,都不知道对方做了什么,也预料不到对方将如何回应。相反,每个人都要考虑对方同时在想什么。这种想对方之所想的做法的一个出发点是,列出双方所有同时选择组合的所有结果。因为每家公司各有两个价格选择:80 美元或 70 美元,所以总共存在四个这样的组合。我们可以用一种由行和列组成的类似电子表格的形式简单地把它们表示出来,通常我们称之为博弈表或者赢利表。彩虹之巅(简称 RE)的选择表示在行中,比比里恩(简称 BB)的选择表示在列中。在这四个单元格中的每个单元格,我们都展示了与每
13、个 RE 行选择和 BB 列选择相对应的两个数字衬衫的销售利润,单位是千美元。在每个单元格中,左下角的数字属于行参与者,右上角的数字属于列参与者。 在博弈论术语中,这些数字称为赢利。 同时,在这个例子中,为了清楚地区分哪些赢利属于哪个参与者,我们把这些数字用两种不同的阴影表示出来。一般来说,对参与者而言,赢利数字越高越好。有时则不然。比如对接受审讯的囚徒而言,赢利数字指的是监禁的期限,因此每个参与者都希望数字更小。同样的情况也适用于赢利数字代表排名时,在那里,1 是最佳结果。当你观察一个博弈表格时,你应该先弄明白该博弈的赢利数字的含义。在“求解”这个博弈之前,让我们先来观察并强调一下该表格的一
14、个特性。比较一下这四个单元格中的赢利组合。对 RE 而言较好的结果,并不总是意味着对 BB 而言是较坏的结果,反之亦然。具体地说,它们在左上角的单元格中的赢利,都优于它们在右下角单元格中的赢利。这种博弈无须分出胜者和败者;因为它不是零和博弈。我们在第 2 章也曾经指出,查理布朗投资博弈不是零和博弈,我们在现实生活中遇到的大多数博弈也不是零和博弈。在很多博弈中,比如囚徒困境博弈,主要问题在于如何避免出现两败俱伤的结果,或者如何促成双赢的结果。困境现在我们来考虑一下 RE 经理的推理。“如果 BB 选择 80 美元,那么我可以通过把价格降至70 美元,得到 110 000 美元的利润,而不是 72
15、 000 美元的利润。如果 BB 选择 70 美元,那么,若我也定价 70 美元,我的赢利是 70 000 美元;但是,若我定价 80 美元,我只能得到 24 000 美元的利润。所以,不论在哪种情况下,选择 70 美元都优于选择 80 美元。不论BB 如何选择,我的更优选择(实际上是我的最优选择,因为我只有两种选择)都是相同的。我根本不需要考虑他的想法;我只管直接把价格定为 70 美元就好了。”在一个同时行动博弈中,如果存在这样的特性:对某个参与者而言,无论其他参与者如何选择,他的最佳选择都是一样的,那么这种特性将大大简化参与者的思考过程以及博弈论学家的分析过程。因此,为了简化博弈求解方法,
16、深入探讨并找出这个特性将很有价值。博弈论学者将这种特性命名为优势策略。如果对于某个参与者而言,无论其他参与者选择什么策略或者策略组合,他的同一种策略总是优于所有其他可选策略,我们就说这个参与者拥有优势策略。于是,我们得到了一个简单的同时行动博弈的行为法则。在第 2 章中,我们已经提供了一个简明的法则来制定序贯行动博弈的最佳策略。那就是我们的法则 1:向前展望,倒后推理。在同时行动的博弈中就不是这么简单了。不过,同时行动所需的想对方之所想,可概括为三个简单的行动法则。这些法则依次依赖于两个简单的思想优势策略和均衡。此处列出了法则 2,法则 3 和法则 4 将在第 4 章介绍。事实上,80 美元是
17、给双方带来最高联合利润的共同价格;若它们能联合起来,组成企业联盟,这也是它们会选择的价格。这个论点的严格证明需要一些数学知识,所以,暂且先记住我们说的话。希望知道该证明过程的读者,可登录本书的网站。公司降价的获益者当然是顾客,他们并不是此博弈中的积极参与者。因此,社会常常有更大的利益动机阻挠公司解决其价格困境。这就是美国和一些其他国家反垄断政策的作用。法则 2:假如你有一个优势策略,请照办。囚徒困境是一个更为特殊的博弈不仅一个参与者,而且两个(或者所有)参与者都有优势策略。BB 经理的推理与 RE 经理的推理完全类似,你应该自己练习运用这个法则,来巩固上述思想。你将发现,70 美元也是 BB
18、公司的优势策略。博弈结果是如博弈表右下角单元格中所示的结果。即两家公司都选择了 70 美元的定价,且每家公司均获得 70 000 美元的利润。正是优势策略使得囚徒困境成为如此重要的一个博弈。当参与者双方都选择他们的优势策略时,他们得到的结果劣于它们联合起来共同选择另一个策略(劣势策略)时得到的结果。在这个博弈中,它们本来都应该定价为 80 美元,从而得到博弈表左上角的单元格结果,即每家公司获得利润 72 000 美元。只有一方定价 80 美元是不行的;这样的话,这家公司将损失惨重。在某种程度上,它们必须都制定高价,但在每家公司都有动机制定低于对方价格的情况下,这个结果很难达到。每家公司都追求自
19、身的利益,并没有导致对双方都是最好的结果,这与亚当斯密(Adam Smith)教给我们的传统经济学大相径庭。由此产生了很多问题。有些问题属于博弈论的更一般的方面。如果只有一个参与者有优势策略会怎样?如果参与者都没有优势策略又会如何?当每个参与者的最佳选择取决于对方的同时选择时,他们是否能看穿彼此的选择,然后解决这个博弈呢?我们将在以后的章节中继续讨论这些问题,那时我们会介绍一个更一般的解决同时行动博弈的概念约翰纳什的美丽的均衡。本章我们集中讨论关于囚徒困境博弈本身的问题。一般情况下,每个参与者可选的两个策略分别被记为“合作”和“背叛”(或者有时候称为“欺骗”),我们将沿用这个用法。对每个参与者
20、而言,背叛都是优势策略,而对双方而言,他们均选择背叛的策略组合得到的结果,比双方均选择合作得到的结果更糟。解决困境的初步思想深知囚徒困境危害的参与者,有强烈的动机达成联合协议,避免陷入这种困境。例如,新英格兰的渔民们可以达成协议,限制捕捞,为将来储备鱼类资源。困难在于,当大家都面临欺骗的诱惑时,例如都想得到超过分配限额的鱼,怎样才使这样的协议比较稳固?关于这个问题,博弈论是如何解释的呢?在实际的这种博弈中,又会发生什么?自从囚徒困境发明 50 年来,其理论已经有了很大的进展,而且积累了大量证据,这些证据不仅来自对真实世界的观察,还来自实验室中的可控实验。让我们来考察一下这些资料,看看能从中学到
21、什么。达成合作的另一面就是避免背叛。通过给予参与者一个适当的奖励,将可以激励参与者选择合作而不是选择最初的优势策略“背叛”;或者,通过制造一种适当的惩罚的可能性,亦可以吓阻参与者选择背叛。基于以下原因,奖励方法可能会有问题。奖励可以是内部的,一方对另一方的合作进行奖励。有时也可以是外部的,可以由从双方合作中获利的第三方对双方的合作进行奖励。不论哪种情形,都不能在参与者做出选择之前给予奖励;否则,参与者一定会把奖励揣入口袋,然后再选择背叛。如果奖励仅仅是一个许诺,那么这个许诺可能是不可信的:在受诺方选择了合作后,许诺方有可能会食言。尽管困难重重,有时奖励还是可行的、有用的。发挥最大的创造性和想象
22、力,参与者可以同时、相互许诺,然后通过把许诺的奖金存入由第三方控制的托管账户中,使这些许诺显得可信。更切实际的是,参与者可以在多个方面相互作用,一方在一个方面的合作可以换来对方在另一个方面合作的奖励。比如,在雌性黑猩猩群中,分享食物、帮忙照看幼崽,可以换来梳理毛发的帮助。有时候,博弈第三方可能有非常强烈的利益动机促成合作。例如,为了结束世界范围内的各种冲突,美国和欧盟不时地许诺向战争国提供经济援助,作为对它们和平解决争端的奖励。1978 年,美国以这种方式奖励了以色列和埃及,因为它们合作签署了戴维营协议。惩罚是解决囚徒困境的更为常用的方法。它可能即时见效。电影洛城机密中有这样一个场景,警官埃德
23、埃克斯利向他正在审讯的嫌犯之一雷若伊方丹许诺,如果他为国家作证,就可以比其他两个嫌疑犯少判几年。但雷若伊知道,一旦他出狱,他会发现另两个人的朋友正等着报复他!然而,在这种背景下自然而然想到的惩罚,产生于这样的事实,即大多数此类博弈都只是一段持续关系的一部分。欺骗可能使一个参与者获得短期利益,但却会损害这种持续关系,产生更长期的成本。如果该成本非常大,这就可能从一开始就起到了阻吓欺骗的作用。由于发展了重复博弈中隐含合作的一般理论,罗伯特奥曼(Robert Aumann)于 2005 年被授予诺贝尔经济学奖。一个引人注目的例子来自棒球比赛。美国联盟队的击球员被投球击中的概率是 11,而国家联盟的击
24、球员被击中的概率是 17。据道格德林恩(Doug Drinen)和约翰-查尔斯布拉伯瑞(JohnCharles Bradbury)所说,这种区别的主要原因在于指定的击球手规则。在美国联盟队,投球手不击球。因此,攻击击球手的美国联盟队投球手,不必担心对手队的投球手会直接报复。虽然投球手不太可能被击中,但如果他们刚刚在上半场攻击了某个人,那么,他们被击中的机会就会增加 1/4。担心遭到报复是显然的。就像王牌投球手科特谢林(Curt Schilling)所解释的:“当你面对兰迪约翰逊(Randy Johnson)时,你还会郑重其事地向某个人投球吗?”大多数人在考虑一个参与者如何惩罚对方过去的欺骗行为
25、时,就会想到“以牙还牙”的说法。这的确是关于囚徒困境最有名的实验结果。让我们详细叙述在实验中发生了什么,以及我们能从中学到什么。3.以牙还牙(美)迪克西特,(美)奈尔伯夫 著,董志强 等译作者: 书名:妙趣横生博弈论:事业与人生的成功之道 20 世纪 80 年代初,密歇根大学政治科学家罗伯特阿克谢罗德(Robert Axelrod)邀请了世界各地的博弈论学者以电脑程序形式提交他们的囚徒困境博弈策略。这些程序两两结对,反复进行 150 次囚徒困境博弈。参赛者按照最后总得分排定名次。冠军是多伦多大学的数学教授阿纳托拉普波特(Anatol Rapoport)。他的取胜策略就是以牙还牙。阿克谢罗德对此
26、感到很惊奇。他又举办了一次比赛,这次有更多的学者参赛。拉普波特再次提交了以牙还牙策略,并再次赢得了比赛。以牙还牙是“以眼还眼”行为法则的一种变形:人家怎么对你,你也怎么对他。 说得更准确点,这个策略在开局时选择合作,以后则模仿对手在上一期的行动。在旧约出埃及记(Exodus,21:22)中,我们看见,“人若彼此争斗,伤害有孕的妇人,甚至坠胎,随后却无别害,那伤害她的,总要按妇人的丈夫所要的,照审判官所断的,受罚。若有别害,就要以命偿命,以眼还眼,以牙还牙,以手还手,以脚还脚,以烙还烙,以伤还伤,以打还打。”新约则提倡更具合作精神的行为。在新约马太福音(Matthew,5:38)中,我们读到,“
27、你们听见有话说:以眼还眼,以牙还牙。只是我告诉你们,不要与恶人作对。有人打你的右脸,连左脸也转过来由他打”。我们从“以其人之道,还治其人之身”转到“你们愿意人怎样待你们,你们也要怎样待人”(新约路加福音,Luke,6:31)的金科玉律。假如人们当真遵守这一金科玉律,也就不会存在什么囚徒困境了。此外,只要我们看得更深远一些,不难发现,虽然合作可能在某一特定博弈中降低你的赢利,但是以后可能带来的回报却足以使一个自私的人相信,合作应该算是一个理性策略。你认为不存在以后吗?帕斯卡尔的赌博说明了,在此假设基础上行动的后果可能相当惨烈,所以这就是冒险的原因。因为每个失败者都必须和一个胜利者组对,所以结果一
28、定是某个参赛者的胜利的次数大于失败的次数,不然就是失败的次数大于胜利的次数。(唯一的例外就是每个单场比赛都打成平局。)阿克谢罗德认为,以牙还牙法则体现了任何一个有效策略应该符合的四个原则:清晰、善意、报复性和宽容性。再也没有什么字眼会比“以牙还牙”更加清晰、简单。这一法则不会引发欺骗,所以是善意的。它也是报复性的也就是说,它永远不会让欺骗者逍遥法外。它还是宽容的,因为它不会长期怀恨在心,而愿意恢复合作。以牙还牙一个非常引人注目的特征在于,它在整个比赛中取得了突出的成绩,虽然它实际上并没有(也不能)在一场正面较量中击败任何一个对手。其最好的结果是跟对手打成平手。因此,假如当初阿克谢罗德是按照“赢
29、者通吃”的原则打分,以牙还牙的策略只可能失败或是打成平手,而不可能取得最后的胜利。不过,阿克谢罗德并没有按照“赢者通吃”的原则给结对比赛的选手打分,只有比赛结束才算数。以牙还牙策略的一大优点在于它总是可以将比赛引向结束。以牙还牙最坏的结果是,以遭到一次背叛重击而告终,也就是说,它让对手占了一次便宜,此后双方打成平局。以牙还牙策略之所以能赢得这次锦标赛,是因为它通常都会竭尽全力促成合作,同时避免互相背叛。其他参赛者则要么太轻信别人,一点也不会防范背叛,要么太咄咄逼人,一心要把对方踢出局。不过,尽管如此,我们仍然认为以牙还牙策略是一个有缺陷的策略。只要存在一丁点儿出现错误或误解的可能性,以牙还牙策
30、略的胜利就会土崩瓦解。这个缺陷在人工设计的电脑锦标赛中并不可能,因为此种情况下根本不会出现错误和误解。但是,一旦将以牙还牙策略用于解决现实世界的问题,错误和误解就难以避免,结局就可能是灾难性的。以牙还牙策略的问题在于,任何一个错误都会犹如“回声”一般反复出现。一方对另一方的背叛行为进行惩罚,从而引发连锁反应。对手受到惩罚之后,不甘示弱,进行反击。这一反击又招致第二次惩罚。无论什么时候,这一策略都不会只接受惩罚而不做任何反击。举个例子:假设弗勒德和德雷希尔都采取以牙还牙策略。没有人先发起背叛,一段时间内,一切都顺利进行。然后,到了第 11 轮,假设弗勒德错误选择了背叛,或者选择了合作但德雷希尔却
31、误以为他选择了背叛,不论是哪种情况,德雷希尔在第 12 轮都会选择背叛,而弗勒德却会选择合作,因为德雷希尔在第 11 轮中选择了合作。到了第 13 轮,角色就会转换过来。这种一方合作而另一方背叛的模式会继续反复进行下去,直到又一个错误或误解的出现恢复了合作或导致双双背叛。在西弗吉尼亚与肯塔基的交界处,哈特菲尔德家族(Hatfields)与麦科伊家族(McCoys)家族的长期争斗可谓令人难忘。而在虚构世界中,马克吐温笔下的格兰杰福特家族与谢泼德森家族的世代仇恨,为我们提供了另外一个生动的例子,说明以牙还牙的行动是怎样导致循环报复的。当赫克芬恩试图了解格兰杰福特家族与谢泼德森家族世仇的源头究竟是什
32、么时,他却遇到了“鸡生蛋还是蛋生鸡”的难题:“这究竟是为了什么,巴克?为了土地吗?”“我估计是我不知道。”“那么,究竟是谁开的枪呢?是格兰杰福特家的人还是谢泼德森家的人?”“天哪,我怎么会知道?那是多久以前的事啊。”“有没有人知道呢?”“噢,有的,老爸知道,我估计,还有其他一些老头子,不过现在他们也不晓得当初究竟发生了什么事。”以牙还牙策略缺少的是一个宣布“到此为止”的方法。它实在太容易被激发起来了,而且不会轻易地宽恕。确实,后来的阿克谢罗德比赛的版本考虑了错误和误解的可能性,结果表明,其他那些更宽宏大量的策略优于以牙还牙策略。2004 年,诺丁汉大学的格雷厄姆肯德尔(Graham Kenda
33、ll)为了庆祝阿克谢罗德首届比赛的 20 周年,举行了一次比赛。“胜出”者是来自英格兰南安普敦大学的小组。南安普敦小组总共推荐了 60 个参赛者,包括 59 只“雄蜂”、1 只“蜂后”。他们所有的参赛者都以独特的模式开始,这样他们就可以辨认出彼此。接着,雄蜂们牺牲了自己,以便让蜂后得到好的结果。蜂后也拒绝了与任何对手合作,以降低对手们的得分。虽然让一群雄蜂为了你的利益而牺牲自己是增加你的赢利的一种方法,但它并没有教给我们许多关于如何进行一个囚徒困境博弈的知识。在这里,我们甚至可以从猴子那里学到一些东西。棉头狷猴被置于一个博弈中,每只猴子都有机会拉动一个杠杆,给另一只猴子喂食。但是拉动杠杆需要力
34、气。对每只猴子而言,最理想的策略就是自己偷懒,而它的搭档拉杠杆。但是为了避免遭到报复,猴子们学会了合作。只要一个参与者不连续背叛两次以上,棉头狷猴的合作就会一直持续下去,这种策略类似于以牙还牙策略。4.较新的实验(美)迪克西特,(美)奈尔伯夫 著,董志强 等译作者: 书名:妙趣横生博弈论:事业与人生的成功之道 成千上万的关于囚徒困境的实验是在课堂和实验室进行的,这些实验涉及不同参与者人数、不同重复次数以及其他方面。下面是一些重要发现。首先最重要的是,合作发生得相当频繁,即使每对参与者只达成一次合作。平均而言,几乎一半参与者选择了合作。确实,对此最引人注目的例证来自游戏秀网络产品“朋友还是敌人”
35、。在这个节目秀中,两人一组,每组都被问了一些琐碎问题。答对的人赚得的钱存入“信托资金”,在 105 集中,资金总额为 20016 400 美元不等。为了分配这笔资金,参赛者双方进行一个单次囚徒困境博弈。每个人私下里写下“朋友”或“敌人”。当双方同时写下朋友时,他们平分这笔资金。如果一方写了敌人而另一方写了朋友,那么,写敌人的那个人将得到全部资金。但若双方都写敌人,他们都将一无所获。不论对方写什么,你写敌人得到的钱至少等于或者可能大于你写朋友所得到的钱。然而,几乎一半参赛者写下的是朋友。甚至当资金总额增大时,合作的可能性也没有改变。资金低于 3 000 美元时人们合作的可能性,与资金高于 5 0
36、00 美元时相等。以上就是从菲利克斯奥本豪泽尔-吉(Felix OberholzerGee )教授和乔沃德弗格(Joel Waldfogel)教授,以及马修怀特(Matthew White)教授和约翰李斯特(John List)教授所进行的两项研究中发现的一些结果。如果你还在疑惑看电视如何算得上是学术研究,可结果已有过 700 000 美元的资金分给了参赛者。这是史上奖金最多的囚徒困境实验。我们能从中学到许多东西。实验结果表明,女性比男性更倾向于合作,在第一季,女性和男性合作的概率分别是 475% 和 537% 。第一季的参赛者不具有可以在决策前看到其他比赛结果的优势。但到了第二季,前 40
37、集的结果已经公布了,这个模式变得显而易见。参赛者可以从其他人的经验中学到一些策略。当某一组是由两个女性组成时,合作的概率增至 55。但是当一个女性与一个男性组对时,这个女性的合作概率降到了 342 。而这个男性的概率也降到了 423 。总体而言,合作率降低了 10 个百分点。如果一群实验对象集中起来进行几次配对,且每次的配对不同,那么,选择合作的比率一般会随时间下降。不过,它不会降至零,而是总有固定的一小部分人坚持合作。如果同一对实验对象重复进行基本的囚徒困境博弈,他们常常逐渐达成连续的相互合作,直到其中一个参与者在临近这一连续重复博弈结束时选择了背叛。在第一次进行的困境实验中就发生了这样的事
38、。弗勒德和德雷希尔一设计出这个博弈,就立即招呼他们的两个同事进行了 100 次这个囚徒困境博弈 12。其中 60 次双方都选择了合作。较长的一次连续相互合作是从第 83 轮持续到第 98 轮,直到其中一方在第 99 轮偷偷背叛。事实上,按照博弈论的严格逻辑,这种情况本来不应该发生。当这个博弈恰好重复 100 次时,它就是一个同时行动博弈序列,我们可以用倒后推理的逻辑来解决这样的博弈。展望一下在第 100 次博弈时会发生什么。因为往后不再有更多的博弈了,所以背叛不可能在以后的任何一轮遭到惩罚。根据优势策略的推理,双方都应该在最后一轮选择背叛。但是,一旦确定了双方都会在最后一轮选择背叛,第 99
39、轮实际上就成了最后一轮。尽管后面还有一轮,在第 99 轮的背叛也不会在第 100 轮遭到对方的选择性惩罚,因为对方在第 100 轮中的选择是预先注定的。因此,优势策略的逻辑也适用于第 99 轮。我们可以用这个序列逻辑一直倒后推理到第 1 轮。不过,在实际博弈中,不论是在实验室还是在真实世界中,参与者似乎忽略了这个逻辑,结果反而受益于相互合作。事实证明,只要其他人同样都是 “非理性”的,那么,乍看上去可能是非理性的行为,偏离参与者的优势策略却是一个正确的选择。针对此种现象,博弈论学者做出了一种解释。现实世界中存在一些“互惠主义者”,只要对方合作,他们也愿意合作。假设你并不是这些相对友好的人中的一
40、员。如果你在一个有限次重复囚徒困境博弈中按照自己的风格行事,那么你会从一开始就欺骗。而这会向对方参与者暴露出你的本性。为了掩盖真相(至少掩盖一会儿),你不得不表现出友好的样子。为什么你愿意这么做呢?假设你一开始就表现得友好。那么,即使对方参与者不是一个互惠主义者,他也会认为你可能是周围少有的几个友好的人中的一员。合作一段时间将会带来一些实实在在的好处,于是对方会打算报答你的善举,以获取这些好处。这对你也有好处。当然,你正计划在临近博弈结束时偷偷欺骗,就像对方一样。但你们仍然能够在最初阶段维持一段互利互惠的合作。虽然各方都假装善良等着占对方便宜,但双方都会从这种共同欺骗中获得好处。有些实验不是将
41、一群实验对象两两配对,进行几个双人囚徒博弈,而是让所有人进行一个多人囚徒困境博弈。下面我们介绍一个来自课堂的例子,它非常有趣并具有启发性。得克萨斯 A&M 大学的雷蒙德巴特里奥(Raymond Battalio)教授让班上 27 名学生进行以下博弈。13 假设每一个学生都拥有一家企业,他必须决定(同时且独立地做出决定,并把决定写在一张纸条上)是生产产品 1,帮助维持较低的总供给及较高的价格,还是生产产品 2,在损失别人的利益的情况下获利。根据选择 1 的学生总数,将收入按照下面的表格分配给学生:写 1 的学生分配给写 1 的学生的钱(美元)分配给写 2 的学生的钱(美元)0050100405420080583012062251001502610415427108把这个表用下图表示出来,我们可以看得更加清楚,效果也更加明显:这是博弈“事先设计好”的,目的是确保选择 2(欺骗)的学生总是比选择 1(合作)的学生多得 50 美分,不过,选择 2 的人越多,他们的总赢利就会越少。假设全体 27 名学生一开始都打算选择 1,这样每个人将得到 108 美元。现在,如果一个学生打算偷偷改变决定,选择 2,那么,选择 1 的学生就会变成 26 名,每个人将得到 104 美元(比初步计划少了 4 美分),而那个背叛者将得到 154 美元(比初步计划多了 46 美分)。不管最初计