1、第29章 博弈论的应用,本章主要研究博弈论中的4个非常重要的问题:合作问题、竞争问题、共存问题和承诺问题。,一、博弈论分析的重要工具,1、最优反应曲线 在两个人的博弈中,假如存在一个纳什均衡,这个纳什均衡可以如下表示: 假设参与人A的选择为r1,r2,rr ,参与人B的选择为c1 ,c2,cc 。对于参与人A的每一个选择r,bc(r)表示参与人B的最优反应。相应地,对于参与人B的每一个选择r,br(c)表示参与人A的最优反应。纳什均衡为:c*= bc(r), r*= br(c)反应函数 即:每个人的选择正好是对方对自己预期的选择“相互一致”。根据以上函数可以得到反应曲线。,2、混合策略,在以下
2、收益矩阵,我们令参与人A选择“上”的概率为r,选择“下”的概率为1-r,同样,我们令参与人B选择“左”的概率为c,选择“右”的概率为1-c。当r和c等于0时,相应的策略为纯策略。根据收益矩阵和参与人选择的概率,可以得到参与人的期望收益。,同学A,同学B,上,下,左,右,2,1,0,0,0,0,1,2,根据上表,参与人A的期望收益为:2rc+(1-r)(1-c)。即:2rc+1-r-c+rc。 如果r增加了r,A的收益变化为:2cr-r+cr=(3c-1)r。即如果3c1时,A将增加r,如果3c1,A将减少r,如果3c=1时,他对于任意的0r1无差异。,根据同样的方法,得到参与人B的期望受益:c
3、r+2(1-c)(1-r)。 当c增加c时,B的收益变化为:(3r-2)c。 因此,当r2/3时,B增加c将增加收益;当r2/3时,B将减少c;当r=2/3时,他对于任意的0c1无差异。 利用以上两个结论可以绘制参与人的最优反映曲线。,如果参与人B选择c=0,那么参与人A将减少r,使r尽可能小,所以r=0。因此,参与人A使r=0就是对c=0的最优反应。并且,r=0一直都是A的最优反应,直至c=1/3。当c=1/3,0r1都是A的最优反应。对于所有的c1/3,行参与人的最优反应是r=1。,0,c,1/3,r,1,1,A的反映曲线,2/3,B的反映曲线,三个紫色的点 为纳什均衡, 两个为纯策略 均
4、衡。,二、合作博弈,又称协调博弈,在这类博弈中,当参与人能够协调他们之间的策略时,他们的收益就会最大。关键是如何创建这种协调机制。 1、性别战 假设有一个男孩和一个女孩约会看电影,但他们事先没有约好看哪一部电影,而且都忘了对方的电话号码,所以没有办法协调他们的约会,只能猜测对方喜欢看那一部电影。 男孩想看最新推出的动作片,女孩喜欢看文艺片,但他们都宁愿看同一部电影也不愿意放弃约会。 协调博弈的特征:参与人在协调行动时获得的收益要大于单独行动时的收益。,性别战的纳什均衡,在以下的收益矩阵中,可以用上一节中的反应曲线来求解纳什均衡。根据上节的结论,存在三个纳什均衡:上方都选择动作片或文艺片,或者双
5、方分别按2/3的概率选择各自偏好的影片。 究竟哪种均衡会发生,要依据特殊情况而定。当参与人完全有理由相信,其中的一个均衡相对于其他的均衡更“自然”,这个均衡将是最终的选择点,被称为博弈的聚点。,男孩,女孩,动作片,文艺片,动作片,文艺片,2,1,0,0,0,0,1,2,2、囚徒困境,在该博弈中,坦白是一个占优策略,但双方都抵赖(协调)是更好的选择。协调能够使囚徒获得最大化的收益。 解决囚徒困境的方法之一是无限重复博弈。参与人通过将来的行动来奖励合作和惩罚不合作。 另一种方式是缔结合约(协调)。双方可以签订一份合同,如果一方违约,他将支付罚金或接受其他某种方式的惩罚。但这要依赖于能够强制执行这种
6、合同的法律体制的存在。,3、保证博弈,类似囚徒困境,例如美国和苏联之间的军备竞赛。两个国家都可以选择生产核导弹,也可以选择都不生产。其收益矩阵如下图。 该图显示:存在两个纳什均衡(不生产,不生产)和(生产,生产)。但是,(不生产,不生产)对双方都是一个较好的选择。,美国,苏联,不生产,生产,不生产,生产,4,4,1,3,3,1,2,2,但问题在于,任何一方都不知道对方将会做出的选择。在承诺不生产以前,每一方都想得到对方不会生产的保证。 获得这种保证的方法之一是其中一方先采取行动,并接受公开的检查。这可以是一种单边的行动,但他一定要让对方相信自己的选择。 类似:战国时期,皇太子做人质。,4、斗鸡
7、博弈,即电影中的汽车博弈:两个年轻人分别从一条街的两头,驾车笔直地是向对方。第一个转向的人会颜面尽失,但如果没有人转向,将会撞在一起。其收益矩阵如下图: 存在两个纳什均衡:(不转向,转向)和(转向,不转向)。A偏好第一个,B偏好第二个。但这两个都比撞车好。它和保证博弈有所区别,双方做不相同的事情比做相同的事情好。,年轻人A,年轻人B,转向,不转向,转向,不转向,0,0,-1,1,1,1,-2,-2,在这个博弈中,每个参与人都知道如果他能够承诺直线驾驶,对方会因惧怕撞车而转向,从而实现对自己偏好的纳什均衡。但如果双方都这么想,则有可能会撞车。 因此,参与人的一个策略是让对方相信自己的承诺。例如,
8、将自己的方向盘锁住。当然,如果两个人都上了锁,结果将是灾难性的。,结论:如何协调,在保证博弈、性别战和斗鸡博弈中,参与人为了实现自己偏好的纳什均衡,策略之一是:可以通过某一方先采取行动,并承诺选择某个特定的策略来实现。序贯行动。这种方法可以让对方观察到第一个参与人的选择,并相应地做出反应。在囚徒困境中,这种策略并不起作用:如果博弈的一方选择抵赖,另一方的最佳选择将是坦白。 此外的策略有:声誉和缔结合同。,三、竞争博弈,竞争博弈是一种零和博弈,即博弈一方的收益等于另一方的损失。多数体育竞技项目都是零和博弈:一个组的1分等价于另一个组失去一分。参与人之间的利益是完全相反的。 例如,在一个足球比赛中
9、,行参与人主罚点球,列参与人防守。如果列参与人扑错了方向,行参与人得分的可能性大一些。同时,行参与人可能善于踢向某一个方向,而列参与人可能善于扑向某一个方向。但双方都有朝两个方向的可能。,假定如果行参与人踢向球门的左方,当列参与人扑向右方时,行参与人将在80%的时间内得分,当列参与人扑向左方时,行参与人将在50%的时间内得分。 如果行参与人踢向球门的右方,当列参与人扑向左方时,行参与人将在90%的时间内得分,当列参与人扑向右方时,行参与人将在20%的时间内得分。 收益矩阵如下: 注:行参与人的得分就为列参与人的失分。,行参与人,列参与人,向左踢,向右踢,向左扑,向右扑,50,-50,80,-8
10、0,90,-90,20,-20,如果行参与人踢向左方的概率为P,则当列参与人扑向左方的时,他的期望收益为:50P+90(1-p),当列参与人扑向右方时,他期望收益为:80P+20(1-P)。行参与人想使这个期望收益尽量大,而列参与人想使这个期望收益尽量小。 如果P=50%,则列参与人将会扑向右方。因为此时行参与人得到的期望收益为800.5+20 0.5500.5+900.5。 在每一个概率下,列参与人的策略都是使行参与人的期望收益最小化。,行参与人的最优策略,该图反映了每一个概率下行参与人的期望收益。它是根据E=50P+90(1-p)和80P+20(1-P)绘制的两条曲线。,而列参与人的选择将
11、会使行参与人在每一个概率上的期望收益最小化。因此,行参与人的期望收益只能为红色线段部分。,0,20,100,1,90,80,50,0.7,行参与人的期望收益,行参与人踢向左方的概率,均衡点,列参与人的策略,假定列参与人扑向左方的概率为q,则当行参与人踢向左方时,行参与人的期望收益为50q+80(1-q),当行参与人踢向右方时,行参与人的期望收益为90q+20(1-q)。 根据行参与人的期望收益与列参与人扑向左方的概率的关系得到以下两条曲线。 行参与人的选择是:无论列参与人扑向左方的概率是多少,他都要尽力使自己的收益最大化,因此它的期望收益为红色线段部分。而列参与人的最优选择是使行参与人的收益最
12、小,因此他扑向左方最优的概率为0.6。,列参与人的策略,0,20,100,1,80,80,50,0.6,行参与人的期望收益,列参与人扑向左方的概率,均衡点,纳什均衡,根据前面的计算,行参与人应该按概率0.7踢向左方,而列参与人应该按概率0.6扑向左方。这些概率使得无论对方采取什么策略,双方都得到相等的收益。即当行参与人选择p=0.7时,列参与人扑向左方和右方无差异,即不会影响行参与人的收益,但他会乐意以0.6的概率扑向左方。同样,当列参与人选择q=0.6时,行参与人踢向左方和右方无差异,但他会乐意以0.7的概率踢向左方。 这就形成了纳什均衡。给定对方的选择,每一个参与人的选择都是最优的。,行参
13、与人和列参与人的最优反应曲线,当p0.7时,列参与人将扑向右方。类似的,当q0.6时,行参与人将踢向右方。,0,q,0.6,p,1,1,列参与人的反映曲线,0.7,行参与人的反映曲线,纳什均衡,四、共存博弈,共存博弈中最著名就是鹰-鸽博弈,它是指涉及显示两种行为的单一物种的博弈。 例如,当两只豺狗同时遇到一块食物时,他们必须决定是争斗还是共享食物。争斗是鹰派的策略:一方将获胜,另一方将败落。共享食物是鸽派的策略:在对方也是鸽派时,这个策略将发挥很好的功效;但当对方是鹰派时,共享食物的提议则会遭到拒绝,并且,鸽派参与人将一无所获。 其收益矩阵为: 红色框为纳什均衡,行参与人,列参与人,鹰派,鸽派
14、,鹰派,鸽派,-2,-2,4,0,0,4,2,2,鹰-鸽博弈的纳什均衡,假定鹰派的比例是p。同时,一个鹰派遇见另一个鹰派的比例是p,而遇见一个鸽派的概率为1-p。因此,鹰派的期望收益为:H=-2p+4(1-p)。鸽派的期望收益为:D=2(1-p)。 假定具有较高收益的类型的繁殖速度更快一些,并且他们会将其采取策略的倾向遗传给后一代。那么,我们可以预期,如果HD,种群中鹰派的比例将会上升;如果HD,鸽派的数量将会上升。种群处于均衡状态的唯一途径是这两种类型的收益相等,即:H=D。则p=0.5。因此,鹰派和各派之间50-50的混合比例是一个均衡。,进化稳定策略(ESS),鹰派和鸽派1:1的比例是个
15、稳定均衡。因为如果鹰派占的比例p1/2,鹰派的收益将小于鸽派的收益,鸽派的繁殖将加快,得p下降。类似地,如果P1/2,鹰派的收益将大于鸽派的收益,鹰派的繁殖速度加快,P将上升,重新回到均衡。 因此,P=1/2不仅是一个均衡,而且是一个在进化动力下稳定的均衡。这种策略被称为进化稳定策略(ESS)。,五、承诺博弈,合作博弈和竞争博弈是一种同时博弈,每个参与人必须在不知道对方的选择的情况下做出自己的选择。 承诺博弈研究的是一种序贯博弈。在这种博弈中,一个重要的策略是承诺。在斗鸡博弈和保证博弈中,谁做出承诺并让对方相信自己承诺可以实现对自己有利的均衡。 对于另一个参与人来说,这个被承诺的选择必须同时具
16、有有不可撤销性和可观察性。,青蛙和蝎子,青蛙和蝎子商量如何过河,蝎子的建议是要青蛙背着它过河。青蛙开始担心背着它会被它蜇死而犹豫着,但想到如果蝎子蜇死它,蝎子就会淹死,从而就答应了。但结果在过河的过程中,蝎子出于本性把它蜇死了。,青蛙的选择,背,不背,蝎子的选择,蜇,青蛙,蝎子 -10,5,5,3,0,0,不蜇,一只聪明的青蛙是使蝎子做出承诺,使得蝎子蜇它的收益小于不蜇它的收益。例如使蝎子的博弈收益变为下述这种情况。,青蛙的选择,背,不背,蝎子的选择,蜇,5,3,0,0,不蜇,青蛙,蝎子 -10,2,善意的绑匪,绑架者如果想释放人质,但又担心人质获释后会揭露他们的身份。因此,人质面临一个承诺问
17、题:如何使绑匪相信他不会违背自己的诺言而揭露绑匪的身份? 他需要找到一个方法,使得如果他揭露绑匪的身份,他就要承担某种成本。,绑匪的选择,释放,杀掉,人质的选择,揭露,5,3,-3,-10,不揭露,绑匪,人质 -5,2,当力量成为弱势时,一个猪圈里有两只猪,一只支配猪,一只从属猪。猪圈里装有一个控制杆,通过它可以将外面的食物放到食槽里,但食槽在猪圈的另一头。心理学家发现,支配猪按控制杆,从属猪等待进食。但从属猪将吃完大部分食物,支配猪即使以最大的速度奔向食槽也只能吃到一小部分。 为什么?见博弈矩阵。支配猪需做出承诺不把食物吃完,它的境况才能改善。,从属猪,支配猪,不按控制杆,按控制杆,不按控制
18、杆,按控制杆,0,0,4,1,0,5,2,3,储蓄和社会保障,以下是扩展形式的储蓄博弈。,老年人的选择,挥霍,储蓄,年轻人的选择,赡养,老年人,年轻人2,-1,-2,-2,3,-1,1,1,不赡养,不赡养,赡养,如果老年人储蓄,年轻人将会不赡养他们,老年人的最终收益是1。如果老年人挥霍,他们知道年轻人不能忍受眼看他们挨饿,他的最终收益是2。,敲竹杠,案例:假如你雇用一家承包商建造一座仓库。当建造计划被批准并且建筑几乎完工时,你发现建筑的颜色非常糟糕,你要求承包商更换颜色,这种颜色只涉及较少的费用。但是,承包商却索要1500美元,该价格远远大于更换颜色的成本,但是如果你要找到一个油漆工需要延迟工
19、期,这中间发生的成本刚好等于1500美元。因此,你最后还是会支付这笔费用。这就是被敲竹杠。,敲竹杠的博弈,假定承包商粉刷油漆的实际成本200美元,敲竹杠成功时,可以实现1300美元的利润。而客户寻找另一个油漆工需支付200美元,延期成本为1400美元。粉刷后的颜色对他值1500美元,他的净收益是-100美元。,承包商的选择,敲竹杠,按实际成本要价,客户的选择,让步,承包商,客户 1300,0,0,-100,0,1300,找一个油漆工,如何解决敲竹杠的问题,方法一:缔结合同。在合同中具体规定有关事项。但要花费时间、精力和金钱在起草合同上。 方法二:承诺。例如:客户要求承包商缴纳保证金。 方法三:声誉。敲诈客户的承包商将具有不良声誉。在重复博弈下,将受到不被人雇用的惩罚。,