博弈论讲义004.ppt-道客多多_道客多多docduoduo.com

资源描述

1、第四章重复博弈,一重复博弈的基本理论二有限次重复博弈三无限次重复博弈,2,小故事：一元与十元的故事,美国19世纪有一个颇有成就的政治家，其幼年时是流浪街头的孤儿。他经常在大街上向行人讨钱，但当有人让他在1块钱和10块钱之间选择时，他选择了1块钱。于是，许多人都为了亲眼验证关于他的“犯傻”行为的传闻，专门来找他并让他在1块钱和10块钱之间选择。他依然故我地只选择1块钱，于是来找他的人愈来愈多。,3,终于有一天，有一位女士问他：难道你不知道10块钱比1块钱更多一些钱吗？他如此回答道：如果我有一次选择了10块钱，就不会有人来找我让我在1块钱与10块钱之间选择了，我也讨不到钱了。,第一节

2、重复博弈基本概念,一次动态博弈也称为“序贯博弈”。重复博弈：指同样结构的博弈重复多次，其中的每次博弈称为“阶段博弈”。如囚徒困境。重复博弈的特征： 1、阶段博弈之间没有“物质上”的联系，即前一阶段的博弈不改变后一阶段的结构； 2、所有参与人都观测到博弈过去的历史； 3、参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均均值。贴现因子：下一期的一单位支付在这一期的价值。注意：在每个阶段，参与人可同时行动，也可不同时行动。,因为其他参与人过去的历史总是可以观测到的，因此，一个参与人可以使自己在某个阶段博弈的选择依赖于其他参与人过去的行动历史，因此，参与人在重复博弈中的战略空间远远大

3、于和复杂于每一阶段的战略空间，这意味着，重复博弈可能带来一些“额外”的均衡结果。影响重复博弈均衡结果的主要因素是博弈重复的次数和信息的完备性。博弈重复的次数的重要性来源于参与人在短期利益和长远利益之间的权衡。信息的完备性：当一个参与人的支付函数不为其他参与人知道时，该参与人可能有积极性建立一个“好”的声誉以换取长远利益。,重复博弈的分类,有限次重复博弈（Finite Repeated Games ）：基本博弈的有限次重复构成的重复博弈为。定义：给定一个标准博弈G（可以是静态博弈，也可以是动态博弈），重复进行次G，并且每次重复G之前以前博弈的结果各博弈方都能观察到，这样的博弈过程称为“G的次重

4、复博弈”，记为G（T）。而则称为G（T）的“原博弈”或“阶段博弈”。G（T）中的每次重复称为G（T）的一个“阶段”,无限次重复博弈（Infinite Repeated Games）：如果一个标准博弈G一直重复博弈下去，这样的重复博弈我们称为“无限次重复博弈”（Infinite Repeated Games）定义：给定一个标准博弈G（可以是静态博弈，也可以是动态博弈），如果将无限次地重复进行下去，且博弈方的贴现因子都为，在每次重复G之前，以前阶段的博弈结果各博弈方都能观察到，这样的博弈过程称为“的无限制重复博弈”，记为（,）而G称为G（,）的“原博弈”。,重复博弈的策略、子博弈和均衡路径,(1)

5、重复博弈的策略。在动态博弈中，博弈方的一个策略是指每一次轮到其选择时针对每种可能情况如何选择的计划。由于重复博弈中每个博弈方在每个阶段都必须进行策略选择，因此博弈方的一个策略就是在每次重复时, 针对其前面阶段所有可能的情况如何进行行动的计划。,(2) 重复博弈的子博弈重复博弈是动态博弈，因此也有阶段子博弈的概念。我们已经知道子博弈是全部博弈的一部分，当全部博弈进行到任何一个阶段，到此为止的进行过程已成为各博弈方的共同知识，其后尚未开始的博弈部分就是一个子博弈。重复博弈的子博弈就是从某个阶段（除第一阶段以外）开始，包括此后所有阶段的重复博弈部分。重复博弈的子博弈要么仍然是重复博弈，只是重复的次

6、数较少，要么就是原博弈。定义：在有限次重复博弈G（T）中，由第t+1阶段开始的一个子博弈为G进行T-t次的重复博弈。在无限重复博弈G（,）中，由第t+1阶段开始每个子博弈都等同于初始博弈G（,）。,注意，重复博弈的第t阶段本身并不是整个博弈的一个子博弈。子博弈是原博弈的一部分，它不仅意味着博弈到此为止的进行过程已成为所有博弈方的共同目知识，而且还包括了原博弈在这一点之后进行的所有信息。只单独分析第t阶段的博弈就等于把该阶段看成了最后一个阶段是不符合重复博弈分析要求的。有了子博弈的概念，以及与子博弈有关的概念和结论，包括子博弈精炼纳什均衡概念，以逆向归纳法为核心的子博弈精炼纳什均衡分析及相关结论

7、，就都可以推广到重复博弈中。,(3) 重复博弈的均衡路径。在重复博弈中，由于所有博弈方在每个阶段都必须行动，因此重复博弈的路径是由每个阶段博弈方的行动组合串联而成的。而且对应前一阶段的每一种结果，下一阶段都有原博弈全部策略组合数那么多种可能的结果，如原博弈有m种策略组合，那么重复两次就有m2条博弈路径，重复T次就有mT条博弈路径，因此在重博弈中，博弈方在重复博弈中的策略空间要远远大于在每个阶段博弈中的策略空间，重复博弈的路径数往往是很大的，常常可以产生一些意想不到的均衡路径。,4重复博弈的得益重复博弈的得益与一次性博弈是不同的，因为G（T）中的每个阶段本身就是一个博弈，各个博弈方都有得益，而

8、不是整个博弈结束后有一个总的得益，因此博弈方如何选择得益就成了问题。如果是根据当前阶段得益进行选择，那么把重复博弈就分割分裂成了一个个基本博弈，重复博弈就失去了研究价值。显然重复博弈中博弈方不能只考虑本阶段的得益，而必须考虑整个重复博弈过程得益的总体情况。,第四章重复博弈,一重复博弈的基本理论二有限次重复博弈三无限次重复博弈,有限重复博弈,重复博弈所关心的议题：将来可信的威胁或承诺如何影响到当前的行动,考察下列博弈,上述博弈存在唯一的Nash均衡。将上述博弈重复两次，其中第二次博弈开始时，第一次博弈的结果已知。,两次重复博弈的博弈树,前面的分析说明：在两次重复博弈中，合作仍无法到达

9、。同样可证明：在n阶段重复博弈(即博弈重复n次且每次博弈开始时，前面博弈的结果都已知)中，合作同样无法到达。,重复博弈定义,对于给定的阶段博弈G，令G(T)表示G重复进行T次的有限重复博弈，并且在下一此博弈开始前，所有以前博弈的进程都可被观测到, G(T)的收益为T次阶段博弈收益的简单相加。,在重复博弈中，当全部博弈进行到任何一个阶段，到此为止的进行过程就成为参与各方的共同知识，而其后尚未开始进行的部分就是一个子博弈。,定理：,如果阶段博弈G有唯一的Nash均衡，则对任意有限的T，重复博弈G(T)有唯一的子博弈精炼解，即G的Nash均衡结果在每一个阶段重复进行。,考察下列博弈,上述博弈存在两

10、个Nash均衡：(L1 , L2)和(R1 , R2)将上述博弈重复两次。,1) 战略：每个局中人都有个战略；,2) 战略组合：一共存在个战略组合；,3) 均衡：可以根据以下原则构造均衡：由第一阶段的结果，预测第二阶段的均衡。,例如：若第一阶段出现(M1,M2)(即出现合作)，则第二阶段为(R1,R2)(即“好的均衡”)；若第一阶段没有出现(M1, M2 ), 则第二阶段为(L1,L2)(即“差的均衡”)。,根据上述原则，可构造如下策略：触发策略,S1：第一阶段选择M1；如第一阶段结果为(M1，M2)，则下一阶段选R1；否则选择L1。S2：第一阶段选择M2；如第一阶段结果为(M1，M2) ，则

11、下一阶段选R2；否则选择L2。,在上述策略下，博弈可表示为：,这意味着：合作可以在第一阶段达到,定理：,如果G= 是一个有多个Nash均衡的完全信息静态博弈，则G(T)可以存在子博弈精炼解，其中对每一 tT, t 阶段的结果都不是G的Nash均衡。,上述结论说明：对将来行动所作的可信威胁或承诺可以影响到当前的行动。但存在威胁可信性问题,第一阶段第二阶段,考察下列博弈。,博弈方1的策略：第一阶段选 Y1；如果第一阶段结果是（ Y1,Y2 ），第二阶段就采用 Z1，否则采用 P1 博弈方2的策略：第一阶段选 Y2；如果第一阶段结果是（ Y1,Y2 ），第二阶段就采用 Z2，否则采用Q2,显然，上

12、述策略构成博弈的Nash均衡，且为子博弈精炼Nash均衡。,上述重复博弈中两个博弈方所采用的是一种称为“触发策略”（Trigger Strategy）。即首先博弈双方试择合作，若双方都选择合作，则下一阶段继续进行合作；一旦选择不合作，就会触发其后所有阶段都不再相互合作。触发策略是重复博弈中实现合作和提高效率的一种关键机制。“触发战略”有时又叫做“冷酷战略”（Grim Strategy）。,两市场博弈的重复博弈（重复两次）,(A,B)+(A,B) OR (B,A)+(B,A)(1,4)(4,1) 连续两次采用混合策略(2,2) (A,B)+(B,A) OR (B,A)+(A,B)(2.2,2.5

13、)轮换策略一次纯策略+一次混合策略(1.5,3)(3,1.5),厂商1、2的策略,厂商1：第一阶段选A；如果第一阶段结果是（A，A），则第二阶段选A，如果第一阶段是（A，B），则第二阶段选B；第三阶段无条件选B。厂商2：第一阶段选A；第二阶段无条件选B；如果第一阶段结果是（A，A），则第三阶段选A，如果第一阶段是（A，B），则第三阶段选B；,重复博弈不同策略、均衡及一次性博弈得益比较,不同策略组合、均衡得益图示,有限次重复博弈的民间定理,个体理性得益：不管其它博弈方的行为如何，一博弈方在某个博弈中只要自己采取某种特定的策略，最低限度保证能获得的得益可实现得益：博弈中所有纯策略组合得益的加

14、权平均数组定理：设原博弈的一次性博弈有均衡得益数组优于w，那么在该博弈的多次重复中所有不小于个体理性得益的可实现得益，都至少有一个子博弈完美纳什均衡的极限的平均得益来实现它们,第四章重复博弈,一重复博弈的基本理论二有限次重复博弈三无限次重复博弈,无限重复博弈,定义(无线重复博弈)给定一阶段博弈G，令表示相应的无限重复博弈，其中G将无限次低重复进行，且参与人的贴现率为。对每个t，之前t-1次阶段博弈的结果在t阶段开始进行前都可以被观测到，每个参与人在中的收益都是该参与人在无限次的阶段博弈中所得受益的现值。,在有限重复博弈G(T)中，由第 t+1 阶段开始的一个子博弈为G进行

15、T-t 次的重复博弈，可表示为G(T-t)。由第 t+1 阶段开始有许多子博弈，到 t 阶段为止的每一可能的进行过程之后都是不同的子博弈。,在无限重复博弈中，由 t+1 阶段开始的每个子博弈都等同于初始博弈，和在有限情况下相似，博弈到 t 阶段为止有多少不同的可能进行过程，就有多少从 t+1 阶段开始的子博弈。,对于无限重复博弈，参与人在博弈的每一时点，都不必考虑过去的得失，也就是说，无限重复博弈中，参与人过去的得失并不重要，可以看成是沉没成本(或收入)。,下列博弈重复无限次。,对于阶段博弈为上述博弈的有限重复博弈，合作不可能形成。但对于无限重复博弈，在一定的贴现率下，合作有可能形成。,

16、构造如下触发策略：,S1：第i阶段选择D；如第i阶段结果为(D，R)，则下一阶段选D；否则以后一直选择U。S2：第i阶段选择R；如第i阶段结果为(D，R)，则下一阶段选R；否则以后一直选择L。,可用证明：在一定的贴现率下，上述触发策略构成Nash均衡。,贴现率的求解,所以,可行收益,一组收益为阶段博弈G的可行收益，如果它们是G的纯战略收益的凸组合 (即纯战略收益的加权平均，权重非负且和为1)。前述阶段博弈的可行收益集合如下图所示。,子博弈精炼Nash均衡的可行收益区间,平均收益,给定贴现率，无限的收益序列的平均收益,所以,故,令G为一个有限的完全信息静态博弈，令为G的一个Nash均衡下的

17、收益，且用表示G的其它任何可行收益。若存在则存在足够接近1的贴现率，使无限重复博弈存在一个子博弈精炼Nash均衡，其平均收益可达到,定理：,在贴现因子并不“足够接近于1”时，子博弈精炼Nash均衡能达到什么样的平均收益?,思路之一：令贴现率等于一个固定值，并在假设参与者运用触发战略，一旦发生任何偏离就永远转到阶段博弈的Nash均衡的条件下，计算可以达到的平均收益。,在决定当前阶段是否偏离时，贴现率越小，下一阶段开始进行惩罚的效果就越小。然而，一般来讲参与者总可以比简单重复阶段博弈的Nash均衡得到更高的收益。,思路之二：由阿布勒(Abreu，1988)最先提出，它基于如下思路，即阻

18、止一个参与者偏离既定战略的最有效的方法是威胁该参与者，一旦偏离，就将受到最严厉的可信的惩罚，即威胁该参与者，一旦偏离，就将选择使偏离者收益最低的无限重复博弈的子博弈精炼Nash均衡。 “可信惩罚”是指惩罚战略本身必须是一个子博弈精炼均衡；“最严厉”是指使不合作者得到最低可能的支付。,在绝大多数博弈中，永远转到阶段博弈的Nash均衡并不是最严厉的可信惩罚，于是有些使用触发战略方法无法达到的平均收益，运用阿布勒的方法可以达到。,考虑古诺博弈为阶段博弈的无限重复博弈，两企业的贴现率都为。计算两个企业的下述触发战略成为无限重复博弈的Nash 均衡时，贴现率的值。,如何走出囚徒困境？,为什么需要游

19、戏规则？,两个骑自行车的人对面碰头，因为不知道对方会不会躲、往哪边躲，自己也不知该如何反应，于是撞到一起。假如你正在和女友通话，电话断了，而话还没说完。这时有两个选择，马上打给对方，或等待对方打来。注意：如果你打过去，她就应该等在电话旁，好把自家电话的线路空出来，如果她也在打给你，你们只能听到忙音；另一方面，假如你等待对方打电话，而她也在等待，那么你们的聊天就没有机会继续下去。这时，该怎么办呢？,一方的最佳策略取决于另一方会采取什么行动。这里又有两个均衡：一个是你打电话而她等在一边，另一个则是恰好相反。一个解决方案是，原来打电话的一方再次负责打电话，而原来接电话的一方则继续等待电话铃响。

20、这么做的好处是原来打电话的一方知道另一方的电话号码，反过来却未必是这样。另一种可能性是，假如一方可以免费打电话，而另一方不可以(比如你是在办公室而她用的是住宅电话)，那么，解决方案是拥有免费电话的一方应该负责第二次打电话。还有一种比较通常的解决方法是，由较热切的一方来打电话，恋爱中的男女遇到这种情况，通常也是由主动追求者打电话。,为什么需要游戏规则？,对未来的预期，是影响我们行为的重要因素。一种是预期收益：我这样做，将来有什么好处；一种是预期风险：这样做可能面临的问题。这些将影响个人的策略。大学生同学之间应如何相处？是背叛还是合作？是互相帮忙还是互相斯压？文凭的价值是否影响大学生的学习

21、热情？,未来是否重要？,地摊、车站、旅游点，这些人群流动性大的地方，不但商品和服务质量最差，而且假货横行，因为在商家和顾客之间“没有明天”一个旅客不大可能因为你的饭菜可口而再次光临，一锤子买卖，不赚白不赚。在公共汽车上，两个陌生人会为一个坐位争吵，可如果他们认识，就会相互谦让。为什么？在相互社会联系紧密的人际关系中，人们普遍比较注意礼节、道德。,未来是否重要？,两个原始人见面，一个拿着兽皮，一个拿着野果，他们都想把对方的东西据为己有。如果他们的见面是偶然的，结果会如何？可如果他们都知道对方生活在附近，结果又会如何？如果他们的见面是偶然的，可能相互抢劫；可是如果他们都生活在附近，考虑到

22、对方家族的报复，抢劫的风险就大了。所以他们不去打对方的主意所有权就这样产生了。如果他们确实想得到对方的东西，他们可以选择合作以物易物，交易就这样产生了。,未来是否重要？,从消极的层面看，我们互不侵犯，是为了避免没完没了、两败俱伤的循环报应。,道德、法律、权力利益的划分，都与“还要见面”有关。,相邻的人互相敌对，只会两败俱伤。两个相邻的国家，如果相互敌对，是一件非常不幸的事。它们不可能“搬家”，又不可能消灭对方(这是现代国际关系准则所不允许的)，这个死结就可能缠绕它们许多年。遗憾的是，这样关系的邻国还不少，如巴以、印巴、两伊以及伊拉克和科威特。希腊和土耳其也曾经是这样的世仇，现在关系虽已缓和，

23、但是它们之间的不信任感还是长久不能消除。中苏交恶的年代，双方都在边境地区陈兵百万，巨大的军费开支和潜在的战争风险对两国都是重负。现在两国关系改善，互信增加，边境军事力量大大减弱，可以说是一个双赢。从这个意义上说，“面向未来”不仅仅是一句外交辞令。,未来是否重要？,促进双方合作可以从三个方面着手：（1）使得未来相对于现在更重要些；（2）改变对策者的四个可能的结果的收益值；（3）教给对策者那些促进合作的准则、事实和技能。,增大未来的影响走出“囚徒困境”,一艘军舰在夜航中，舰长发现前方航线上出现了灯光。舰长马上呼叫：“对面船只，右转30度。” 对方回答：“请对面船只左转30度。” “我是美国海军上

24、校，右转30度。” “我是加拿大海军二等兵，请左转30度。” 舰长生气了：“听着，我是列克星顿号战列舰舰长，这是美国海军最强大的武装力量，右转30度！” “我是灯塔管理员，请左转30度。”,另一个增大未来影响的方法是使接触更加频繁。在下一步接触很快就会发生的情况下，下一步显然比通常更重要。经常接触有助于促进稳定的合作。在商业上，专业化公司趋向于限制在与少数几个公司接触以便使这种接触更加频繁。这是合作在小城镇比在大城市容易出现的一个原因。这也是婚姻比恋爱相对来说更稳定的原因之一。婚礼就是一个用来庆祝和促进持续关系的公共行为，对婚姻的稳定有促进作用。,增大未来的影响走出“囚徒困境”,分解（

25、问题分解成若干的部分）是促进稳定的合作的一种有效方法。因为分解会增加接触的频率。,增大未来的影响走出“囚徒困境”,将军备控制和裁军条约分解成许多阶段，这样就允许双方有更多让步的机遇而不只是一两个让步。这样可以使回报更有效。如果双方都知道对方的一步不合作的策略可以通过下一步的回报来补偿，那么双方对整个过程可以按所期望的进行就更有信心。而且，如果双方对自己识别欺骗的能力缺乏信心，那么，有许多小的步骤比只有少数大的步骤更有助于促进合作。,在商业上，商人们喜欢一个大订单分别按每次发货时间付款，而不愿等到最后付总账。使得当前步骤的背叛相对于整个未来的接触过程来说不是那么有诱惑力，这是促进合

26、作的好方法。,思考：光天化日下抢劫事件为什么越来越多？,增大未来的影响走出“囚徒困境”,少女在车站等车,歹徒实施抢劫,少女被压在地上,歹徒抢夺财物,思考：光天化日下抢劫事件为什么越来越多？,增大未来的影响走出“囚徒困境”,人家打你一巴掌，你还把另一边脸转过去，等于鼓励对方再占你便宜。无条件的合作不仅伤害你自己，而且伤害了这个成功的剥削者接着要遇到的无辜者。无条件合作将会宠坏对方，并为社会留下了改造被宠坏者的负担。,对敌人的仁慈就是对自己的残忍。,增大未来的影响走出“囚徒困境”,决定合作与否其实取决于一次博弈还是多次博弈.,如果囚徒困境只是一次性的博弈，那么签订协议是毫无意义的，其纳什均衡点并不

27、会改变。可以签订协议的一个最基本的条件，就是博弈需要重复若干次，当然至少大于一次。就恋爱博弈来看，男女双方在交往的过程，随时都在博弈，因为相爱的过程中任何一个时点都是有可能分手的。用博弈论的术语来说，这是一种囚徒困境的重复博弈。无数爱情故事中的悲欢离合、精彩跌宕正是这个博弈模型的表现。素不相识一对男女的一夜情是理所当然的一次性囚徒困境博弈。,增大未来的影响走出“囚徒困境”,决定合作与否其实取决于一次博弈还是多次博弈.,在重复型的囚徒困境中，并不是签订合作协议很困难，困难的是这个协议对博弈各方是否具有很强的约束力。一个合作契约建立的困难在于任何协议签订之后，博弈参与者都有作弊的动机，因为至

28、少在作弊的这一局博弈中，作弊者可以得到更大的收益。常言道：“婚姻是走向爱情的坟墓”，但从博弈论的角度来看，婚姻恰恰是男女双方签订的一种协议，具有一定约束力的协议，因为一旦对方背叛婚姻，就会受到家庭的压力与社会舆论的谴责。,增大未来的影响走出“囚徒困境”,决定合作与否其实取决于一次博弈还是多次博弈.,在博弈理论中，博弈专家已经用数学证明出，在无限次重复博弈的情况下，合作可能是稳固的。如果博弈无穷次，双方就会逐渐从互相背叛走向互相合作。因为任何一次背叛都会招致对方在下一次博弈时的报复；而双方都取合作态度会带来合作收益。但是在现实社会生活中又不完全这样，人总是要死的，因而人与人之间的博弈不是无限次

29、的。当一个人知道他终将退出博弈时，他就可能不再害怕此后别人对他的报复，从而可以在博弈结束前做损害他人的事情，这就回复到有限次重复博弈的境况。,增大未来的影响走出“囚徒困境”,决定合作与否其实取决于一次博弈还是多次博弈.,实际上，生活中的两人博弈毕竟是特例，绝大部分的情况还是多人博弈。在多人博弈中，只有其它所有参与者在第k1次博弈中都是合作的，某个参与者才会在第k次博弈中采取合作策略。然而，这一策略会带来一个协调问题，任何人的一个小小失误都会导致采取背叛策略的其他参与者的数量如同滚雪球一样地愈演愈烈，最终导致所有人的背叛。更糟糕的是，一旦出现这种情况，没有任何人会主动开始合作。因此，我们可以这

30、么说，多人重复囚徒困境（无论有限或无限）中稳定的合作几乎是不可能的。 (如见义勇为还是袖手旁观),威胁、承诺、作弊与惩罚,霍布斯对合作协议的观点是： “不带剑的契约不过是一纸空文。它毫无力量去保障一个人的安全。”这就是说，没有权威的协议并不是导致民主，而是导致无政府状态。最后，霍布斯总结道，“在一切政体中，最坏的政体并不是专制而是无政府状态。” 霍布斯是现代英国君主立宪政体的理论奠基人，其代表作是政治学名著利维坦（Leviathan）。所谓“利维坦”，是圣经中的一种力大无穷的巨兽名字的音译，在书中意指一个强大的国家。,霍布斯的观点虽然有些偏激，但却不无道理。根据博弈论的观点，无论是一次性或有限

31、次重复博弈，“囚徒困境”产生这种结局的原因是两个囚犯都基于自身利益的角度考虑，这最终导致合作协议无法稳定遵守。,威胁、承诺、作弊与惩罚,决定合作协议是否能够被囚徒双方执行的最关键的基本要素有两个，即承诺与威胁。所谓承诺，在囚徒困境中就是囚徒向对方相互许诺，在下一次博弈时会采取让对方有利的行为，也就是不坦白与对方合作；所谓威胁，就是某个囚徒告知对方如果下一次博弈时其采取招供策略而不合作，在下下一次博弈时就会采取不利于对方的策略即招供。在社会生活中，承诺与威胁是非常常见的现象。比如女生告诉她男朋友，如果他敢结交其他的女生，只要被发现一次，就立刻分手，这是威胁；而她男朋友向她发誓绝对自己是个专

32、一的情圣，决不会背叛爱情，这就是承诺。合作的关键是承诺与威胁的可信度有多大。因为承诺与威胁都是在博弈者进行策略选择之前作出的，如果承诺与威胁对博弈者的约束力越小，那么合作的可能性就越小。,威胁、承诺、作弊与惩罚,对于有限次重复博弈合作问题的解决主要有2个典型方法，那就是国家法律与社会道德。案例：公司A与公司B是商业上的合作伙伴，公司A经常向公司B购买原材料，由于两家公司在不同的城市，于是两个公司经过谈判之后签定买卖合同，一般在一周之后的那一天，公司A打现金打入公司B的银行帐户，公司B则发货到公司A，若违约则处于25倍罚款。实际上，如果公司A与公司B都是理性人，那么他们的合作就是一个有限次数重

33、复博弈，在社会不存在法律的情况下，在两个公司任何一次交易中都有可能有某一家公司不遵守合同，逃款或逃货，即使公司A现金充裕，而公司B货源充足。所谓的熟人欺诈也是这个道理。然而，在我们理想的法律环境下，公司A和B最佳策略都是合作。,威胁、承诺、作弊与惩罚,假设公司A与公司B每年的交易都有十几次，平均每笔生意为100万，若违约则罚款200万。公司A与公司B合作时，双方收益均为20万（指公司A与公司B的利润）；公司A付款，而公司B不发货，A损失100万，B收益100万；公司A不付款，公司B发货，公司A收益120万（其中包含20万的利润），公司B损失80万（指公司B货物的成本，也就是收入减去利润）；公司

34、A不付款，公司B不发货，双方收益为零。,合作,合作,不合作,不合作,公司B,公司A,威胁、承诺、作弊与惩罚,很显然这是一个有限次重复博弈的囚徒困境。这个博弈则是非对称博弈，这更加贴切于日常生活的真相。在没有法律背景的条件下，双方选择不合作是自然的纳什均衡点。然而引入强制性的法律则不同，这时他们所签合同具有法律效应，一旦有一方违约，另一方有权罚款其200万元，并且法院可以强制实行。在这种情况下，两个“囚徒”，也就是公司自然都会采取合作策略，完成合同对各方所要求的行动。简单说来，就是法律改变了两个公司博弈的均衡结果。,威胁、承诺、作弊与惩罚,霍布斯认为，国家以法律形式规定对某种行为如“违约”

35、采取惩罚措施，如果惩罚措施不力，即使扣除惩罚的成本，行动者从“违约”策略中获取的好处大于他采取“守信”策略所带来的好处，那么国家的法律措施是无效率的或者说是低效率的。因此国家法律的制定应以抑制对他人的危害行动为原则。这就是法律制定的第一条原则：效率原则。效率原则是从对社会的整体考虑分析得出的，从这个意义上讲，法律越严格越好，越严格越有效率。强制性有效率的法律之重要性还可从冷战时期美苏两个超级大国40多年的军备竞赛中得出反证。尽管他们双方签定一些制止军备竞赛的协议，但是由于缺乏一个世界性的公平合理又具有强制性的法律环境，其结果仍然是陷入无法解脱的囚徒困境。,威胁、承诺、作弊与惩罚,法律制定

36、的第二条原则是，法律对犯法者的惩罚应以与犯法者给社会或他人造成的危害相等为原则，这就是公平原则。用简单的一句话说，法律惩罚太重对犯法者不公平，惩罚太轻则对社会或他人不公平。,大唐电信虚增利润再暴诚信劣迹证监会处罚太轻凸显制度缺陷,案例:,ST大唐于2007年8月20日收到证监会下达的行政处罚事先告知书,指称ST大唐存在“所披露的信息有虚假记载”和“重大遗漏”的行为，2004年虚增利润总额共计3719万元。证监会由此拟决定对ST大唐处以30万元罚款。,威胁、承诺、作弊与惩罚,ST大唐究竟怎么啦？近来一直负面新闻不断。2007年5月，ST大唐出尔反尔的“阴阳公告”: 在2006年前3季度盈利27

37、61万元的情况下，ST大唐竟然全年巨亏7.19亿元，并且被戴上ST帽子。巨大的反差，让人瞠目。其实，过去几年，它曾经多次遭到主管部门的公开谴责和警告，不诚信行为早被记录在案。因此，这次被罚，可谓大快人心。不过，这一处罚过轻，虚增利润3719万元，被罚却只有区区30万元，违规的代价也太低了，不仅无法震慑ST大唐，对其他上市公司也难起到以儆效尤的作用。我国应该借鉴西方发达国家证券市场经验，加大对上市公司违规的惩治力度。,ST大唐继今年5月出现诚信问题被谴责后，最近又暴出虚增利润等问题，再次被推向舆论的风口浪尖。,威胁、承诺、作弊与惩罚,ST大唐究竟怎么啦？为何频频出尔反尔？作为上市公司的诚信在

38、哪里? 实际上，ST大唐7月3日公布的大唐电信科技股份有限公司治理自查报告和整改计划披露，在过去4年里，公司曾经3次因信息披露不规范而被上海证券交易所批评、谴责和惩戒。此外，2003年8月27日，大唐电信被上海证券交易所内部批评，因为其“在关联交易及决策方面存在问题”。2006年6月24日，又被内部通报“从2001年12月到2003年4月，年报披露方面存在违规行为”。其间，还有4次接收到监管部门的调查通知书，有“资金占用与担保”以及“虚假信息披露”等多个不同原因。2003年、2004年还两次被证监会要求对年报责令整改。荒诞的是，ST大唐却一直以诚信自诩，而其官方网站赫然挂着获奖记录：200

39、5年1月21日，北京市工商局对2004年度3000多家符合标准的守信企业进行了公示，大唐电信获北京市守信企业称号。此外，ST大唐官方网站还标榜，公司向客户提供的不仅仅是先进的技术和优质产品，更是注重信誉、服务至上的精神。,威胁、承诺、作弊与惩罚,各界朋友：在中国信息产业的发展史上，有“大唐人”这样一个团队，以“忠诚、敬业、求实、立信”为职业道德，从零开始、持续创新、不断奋进，交出了辉煌的答卷。真才基大唐电信科技产业集团董事长,董事长致辞,威胁、承诺、作弊与惩罚,安然公司是一家美国大型能源公司，其排名曾居美国上市公司第七位。年月，该公司申请破产保护，成为当时美国历史上最大的破产案，同时它也拉

40、开了美国大公司造假丑闻曝光的序幕。调查发现，该公司长期通过复杂的财务合伙形式掩盖巨额债务并虚报盈余。当年，安然已连续年被评为美国最具创新精神公司。然而，这个拥有上千亿美元资产的公司却在几周内破产。安然破产还顺带“撂倒”了为其做假账的安达信会计师事务所（世界五大会计师事务所之一）。年月日，美国休斯敦联邦地区法院作出判决，安然公司前首席执行官因犯有欺诈、共谋、内部交易等一系列罪行被判处年又个月徒刑。,“安然事件”及“安达信事务所倒闭”,安然公司办公大厦图,威胁、承诺、作弊与惩罚,美国安然公司案主角可能面临数十年监禁,美国安然公司前首席执行官斯基林(左)与律师离开休斯敦联邦法院。,已自杀的安然公司

41、前副董事长克利夫巴克斯特,威胁、承诺、作弊与惩罚,我国不应反腐败,“我国腐败适度存在，能使改革进一步推进”。,“我国反腐败所花的成本大于腐败损失的金额”。,中山大学某名教授,威胁、承诺、作弊与惩罚,猴群博弈与道德的产生,有一群猴子被关在笼子里，在笼子里的上方有一条绳子，绳子拴着一个香蕉，绳子连着一个机关，机关又与一个水源相连。猴子们发现了香蕉，有猴子跳上去够这个香蕉，当猴子够到时，与香蕉相连的绳子带动了机关，于是一盆水倒了下来，尽管够到香蕉的猴子吃到了香蕉，但其他猴子被淋湿了，这个过程重复着，猴子们发现，尽管有猴子吃到香蕉，但吃到香蕉的猴子是少数，而其余的大多数猴子都被淋湿。经过一段时间，有一

42、伙猴子自觉地行动起来，当有猴子去抓香蕉时，它们便揍那个猴子。每当有猴子去取香蕉，就有其他的猴子因愤怒而自动地去撕咬那个猴子，久而久之，猴子们产生了合作，再也没有猴子敢去取香蕉了。,威胁、承诺、作弊与惩罚,猴群博弈与道德的产生,在这个故事里，猴子间产生了“道德”。如果这群猴子构成一个社会，它们也繁衍下一代，它们会将它们的经历告诉下一代，渐渐地猴子们便认为取香蕉的后果对其他猴子不利，从而认为去取这个香蕉是“不道德的”，它们也会自动地惩罚“不道德的”猴子。当然这只是一个故事，但这个博弈故事却反映了人类的道德的产生过程。与国家一样，道德也是对某些不合作行动的惩罚机制。这种机制的出现使得人类从囚徒困

43、境中走出来。道德感自然地使得人们对不道德的或不正义的行为谴责或者对不道德的人不采取合作，从而使得不道德的人遭受损失。这样，社会上不道德的行为就会受到抑制。因此只要社会形成了道德或不道德，或者正义或非正义的观念，就自动地产生了调节作用。,道德可以打破囚徒困境,威胁、承诺、作弊与惩罚,道德约束的局限性,道德约束有其自身的局限性。它对不道德的行为的抑制是有限度的，当不道德的行为带来的利益大于道德的满足时，道德约束的作用便失效。儿歌：“我在马路边捡到一分钱，把它交给警察叔叔手里边，叔叔拿着钱，对我把头点，我高兴的说了声叔叔再见。”,拾金不昧是理所当然的美德，当捡到别人丢的100块钱时还给失主不仅有

44、道德满足感，还会受到社会的表扬，建立起自己的美誉；若不及时交还失主并很容易被发现的话，则会受到严厉的谴责并失去社会信誉。假想一下，当检别人遗失的价值上百万的古玩名画时，极大的可能是归为己有。这是因为他道德的满足感与可能所受谴责的效用远小于其所检物品给他带来的效用。这种情况下，道德作用失效了，法治就不可替换地代替了道德。,触发策略,如果没有外部强制力，这时囚徒困境中两个参与者采取什么样的策略才可以更好的维持合作的稳定性呢？如果一方采取不合作的策略另一方随即也采取不合作策略并且永远采取不合作策略，在博弈论里面称之为触发策略（Trigger strategy），或称冷酷策略。如果对方知道你的策略

45、是触发策略，那么对方将不敢采取不合作策略，因为一旦他采取了不合作策略，双方便永远进入不合作的困境。因此，只要有人采取触发策略，那么双方均愿意采取合作策略。,触发策略,针锋相对（tit-for-tat）策略：以牙还牙,圣经旧约：以眼还眼以牙还牙,我们对待自己的恋人/爱人是否可以用“以牙还牙”的策略？,触发策略,好的策略必须具有的一个特点是“清晰性”，能让对方在三、五步对局内辨识出来，太复杂的对策不见得好。针锋相对策略就有很好的清晰性，让对方很快发现规律，从而不得不采取合作的态度。针锋相对策略的优越性向我们充分展示了一个纯粹自利的人何以会选择善，只因为合作是自我利益最大化的一种必要手段。,在爱

46、情中的博弈原则应该是：善意而不是恶意地对待恋人；宽容而不是尖刻地对待恋人，关键是能够彼此宽容，既宽容对方的缺点；强硬而不是软弱地对待恋人，就是要在我永远爱你的善意的前提下，做到有爱必报，有恨也必报，以眼还眼，以牙还牙，以其人之道，还治其人之身，比如对恋人与其他异性的亲热行为，要有极其强烈的敏感与斩钉截铁地回报；简单明了而不是山环水绕地对待恋人，在博弈中过分复杂的策略使得对手难于理解，无所适从，因而难以建立稳定的合作关系，明晰的个性、简练的作风和坦诚的态度倒是制胜的要诀。,罗伯特爱克斯罗德实验,罗伯特爱克斯罗德(政治科学家)，对合作的问题具有研究兴趣。为了进行关于合作的研究，他组织了一场计算机竞

47、赛。,这个竞赛的思路非常简单：任何想参加这个计算机竞赛的人都扮演“囚徒困境”案例中一个囚犯的角色。他们把自己的策略编入计算机程序，然后他们的程序会被成双成对地融入不同的组合。分好组以后，参与者就开始玩“囚徒困境”的游戏。他们每个人都要在合作与背叛之间做出选择，并且游戏重复多次。,竞赛的第一个回合交上来的14个程序中包含了各种复杂的策略。但使爱克斯罗德和其他人深为吃惊的是，竞赛的桂冠属于其中最简单的策略：一报还一报(TIT FOR TAT)。这是多伦多大学心理学家阿纳托拉帕波特提交上来的策略。,一报还一报的策略是这样的：它总是以合作开局，但从此以后就采取以其人之道还治其人之身的策略。也就是说，一

48、报还一报的策略实行了胡萝卜加大棒的原则。,一报还一报的策略永远不先背叛对方，从这个意义上来说它是“善意的”。一报还一报策略会在下一轮中对对手的前一次合作给予回报（哪怕以前这个对手曾经背叛过它），从这个意义上来说它是“宽容的“。,但一报还一报策略会采取背叛的行动来惩罚对手前一次的背叛，从这个意义上来说它又是“强硬的”。而且，一报还一报策略的策略极为简单，对手程序一望便知其用意何在，从这个意义来说它又是“简单明了的“。,为了验证上述结果的合理性，爱克斯罗德又举行了第二轮竞赛，特别邀请了更多的人，看看能否从一报还一报策略那儿将桂冠夺过来。这次有62个程序参加了竞赛，结果是一报还一报又一次夺魁。,竞赛

49、的结论无可争议地证明：好人，或更确切地说，具备以下特点的人，将总会是赢家。1善意的； 2宽容的； 3强硬的； 4简单明了的。,一报还一报策略的胜利对人类和其他生物的合作行为的形成具有深刻地含义。爱克斯罗德在合作进化一书中指出，一报还一报策略能导致社会各个领域的合作，包括在最无指望的环境中的合作。,典型的例子就是第一次世界大战中自发产生的“自己活，也让他人活”的原则。当时，前线战壕里的军队约束自己不开枪杀伤人，只要对方也这么做。使这个原则能够实行的原因是，双方军队都已陷入困境数月，这给了他们相互适应的机会。,一报还一报的相互作用使得自然界即使没有智能也能产生合作关系。这样的例子很多：真菌从地下的石头中汲取养分，为海藻提供了食物，而海藻反过来又为真菌提供了光合作用；金蚁合欢树为一种蚂蚁提供了食物，而这种蚂蚁反过来又保护了该树；无花果树的花是黄蜂的食物，而黄蜂反过来又为无花果树传授花粉，将树种撒向四处。,

展开阅读全文