1、第二章 完全信息静态博弈,基本分析思路和方法 纳什均衡 无限策略博弈分析和反应函数 混合策略和混合策略纳什均衡 纳什均衡的存在性 纳什均衡的选择和分析方法扩展,2.1 基本分析思路和方法,2.1.1 上策均衡 上策:不管其它博弈方选择什么策略,一博弈方的某个策略给他带来的得益始终高于其它的策略,至少不低于其他策略的策略 囚徒的困境中的“坦白”;双寡头削价中“低价”。 上策均衡:一个博弈的某个策略组合中的所有策略都是各个博弈方各自的上策,必然是该博弈比较稳定的结果 上策均衡不是普遍存在的 例如:猜硬币博弈、,囚徒1,不坦白,不坦白,坦白,坦白,囚徒2,两个罪犯的得益矩阵(Payoff Matri
2、x),2.1.2 严格下策反复消去法 严格下策:不管其它博弈方的策略如何变化,给一个博弈方带来的收益总是比另一种策略给他带来的收益小的策略 例如,“囚徒困境”中的“不坦白”,2.1.2 严格下策反复消去法 严格下策:不管其它博弈方的策略如何变化,给一个博弈方带来的收益总是比另一种策略给他带来的收益小的策略 应用:,博弈方2,博弈方1,唯一剩下的策略组合(上,中)就是博弈的解。 注:(上,中)不是原博弈的上策均衡,事实上原博弈也没有上策均衡。,2.1.3 划线法,2.1.4 箭头法,博弈方 左 中 右,纳什均衡为(上,中)。,2.2 纳什均衡,2.2.1 纳什均衡的定义 2.2.2 纳什均衡的一
3、致预测性质 2.2.3 纳什均衡与严格下策反复消去法,纳什均衡(Nash Equilibrium) 纳什均衡是著名博弈论专家纳什(John Nash)对博弈论的重要贡献之一。纳什在19世纪50年1951年的两篇重要论文中,在一般意义上给定了非合作博弈及其均衡解,并证明了解的存在性。正是纳什的这一贡献奠定了非合作博弈论的理论基础。纳什所定义的均衡称之谓“纳什均衡”。,策略空间: 博弈方 的第 个策略: 博弈方 的得益: 博弈:纳什均衡:在博弈 中,如果由各个博弈方的各一个策略组成的某个策略组合 中,任一博弈方 的策略,都是对其余博弈方策略的组合 的最佳对策,也即 对任意 都成立,则称 为 的一个
4、纳什均衡,2.2.1 纳什均衡的定义,通俗地说,纳什均衡含义就是:给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你最好的策略。即双方在对方给定的策略下不愿意调整自己的策略。,诺贝尔经济学奖获得者萨缪尔森有一句幽默的话:你可以将一只鹦鹉训练成经济学家,因为它所需要学习的只有两个词:供给与需求。博弈论专家坎多瑞引申说:要成为现代经济学家,这只鹦鹉必须再多学一个词,这个词就是“纳什均衡”。由此可见纳什均衡在现代经济学中的重要性。纳什均衡不仅对经济学意义重大,对其他社会科学意义也同样重大。,2.2.2 纳什均衡的一致预测性质博弈分析最基本的目的之一是预测。也就是说,我们之所以要进行博弈
5、分析,最重要的原因就是预测特定博弈中的博弈方究竟会采取什么行动,博弈将有怎样的结果。 一般来说,人类的历史是不可预测的,也就是说,人类的集体行动是不可能预知的。但是,在某些假定的条件下,某种集体行动是可预测的。博弈论中对行动者的假定是,行动者是理性的。理性的人不可能作出非理性的事情,在这个假定下,许多结果就能预测出来。博弈的均衡就是可预测的结果。在囚徒困境中,囚犯除了选择“坦白”外其他还有吗?对于理性的或者说自私的囚徒来说,肯定没有。这是理性人的假定下的必然结论。,因此, 纳什均衡的价值主要在于它的一些非常重要的性质,其中“一致预测性”就是最重要的性质之一。也就是说, 纳什均衡是关于博弈将会如
6、何进行“一致预测” (Consistent Forecast)的。这里所说的“一致预测”是指这样一种性质:如果所有博弈方都预测一个特定的博弈结果会出现,那么所有的博弈方都不会不顾这种预测或者这种预测能力,去选择与预测结果不一致的策略,即没有哪个博弈方有动力采取与这个预测结果不同的行为, 没有哪个博弈方有偏离这个预测结果的愿望,因此这个预测结果最终真会成为博弈的结果。,也就是说,这里“一致预测”中“一致”的意义是,各博弈方的实际行为选择与他们的预测一致,而不是不同博弈方的预测相同、无差异。纳什均衡的一致预测性质正是博弈预测能力的基本保证。其他的博弈分析概念要么不具备这种性质,从而不存在预测的稳定
7、性,因此不可能成为具有普遍意义的博弈分析概念,要么本身也是纳什均衡,是纳什均衡的一部分。,值得注意的是,虽然纳什均衡是博弈结果的一致预测,但纳什均衡分析却并不一定能对所有博弈的结果都作出准确的预测。因为纳什均衡的一致预测性质本身并不保证各博弈方的预测是相同的,相同的预测是一致预测性质的前提而不是结果。有许多博弈其实根本无法准确预测,因为有些博弈不存在纳什均衡,而另一些博弈又有多重纳什均衡且相互无显著的优劣或效率差别。,2.2.3 纳什均衡与严格下策反复消去法 上策均衡肯定是纳什均衡,但纳什均衡不一定是上策均衡 命题2.1:在n个博弈方的博弈 中,如果严格下策反复消去法排除了除 之外的所有策略组
8、合,那么 一定是该博弈的唯一的纳什均衡 命题2.2:在n个博弈方的博弈中 中,如果 是 的一个纳什均衡,那么严格下策反复消去法一定不会将它消去,上述两个命题保证在进行纳什均衡分析之前先通过严格下策反复消去法简化博弈是可行的,根据上一节的分析已经明白,分析完全信息静态博弈的关键是找出其中的纳什均衡。但前面所讨论都是可通过策略之间的两两比较进行分析的有限策略博弈模型。,在无限策略、连续策略空间的博弈中,纳什均衡的概念同样适用。我们通过具体模型来说明这种博弈的纳什均衡分析方法。,2.3 无限策略分析和反应函数,古诺模型是研究寡头垄断市场的经典模型,在古诺模型中,假设一个市场有两家生产同一种产品厂商。
9、如果厂商1的产量为q1,厂商2的产量为q2,则市场总产量为 Qq1十q2。设市场出清价格P(即可以将产品全部卖出去的价格)是市场总产量的函数(即逆需求函数) P=P(Q)=a-Q=aq1q2 。,2.3.1 古诺的寡头模型,寡头产量竞争以两厂商产量竞争为例,再设两厂商有相同的单位生产成本c1=c2=c,且都没有固定成本,则该博弈中两博弈方的得益(即两厂商各目的利润)分别为:,因此,如果假设策略组合(q1*,q2*)是本博弈的纳什均衡,则(q1*,q2*)必须是使得两博弈方的得益达到最大值,即满足:,要求上式的最大值,只需(1)、(2)两式分别对q1、q2求偏导并令两个偏导数都等于零,由此可得q
10、1*,q2*应满足方程组:,解之得该方程组唯的一组解:均衡总产量为:,两博弈方的均衡得益(利润)分别为:,具体地,若设:,则:,如果想对上述博弈结果作效率评价,可以再从两厂商总体利益最大化的角度作一次产量选择,根据市场条件求实现总得益(总利润)最大的总产量 。,设总产量为Q,则总得益为: UP(Q) cQQ(8Q)2Q6Q Q2 很容易求得使总得益最大的总产量:Q*3 最大总得益:U*9,将此结果与两厂商独立决策,追求自身而不是共同利益最大化时的博弈结果相比,不难发现此时总产量较小,而总利润却较高。,因此从两厂商的总体来看,根据总体利益最大化确定产量效率更高。换句话说,如果两厂商更多考虑合作,
11、联合起来决定产量,先定出使总利益最大的产量后各自生产一半(1.5 , 1.5单位),则各自可分享到的利益为4 .5,比只考虑自身利益的独立决策行为得到的利益要高。,当然,在独立决策、缺乏协调机制的两个企业之间,上述合作的结果并不容易实现,即使实现了也往往是不稳定的。合作难以实现或维持的原因主要是。各生产一半实现最大总利润产量的产量组合(1.5 , 1.5)不是该博弈的纳什均衡策略组合。,也就是说,在这个策略组合下,双力都可以通过独自改变(增加)自己的产量而得到更高的利润,它们都有突破1.5单位产量的冲动。在缺乏由强制作用的协议等保障手段的情况下,这种冲动注定了维持上述较低水平的产量组合是不可能
12、的,两厂商早晚都会增产,只有达到纳什均衡的产量水平(2,2)时才会稳定下来。,因为只有这时候任一厂商单独改变产量才不利于自己,这实际上也是一种“囚徒困境”,如果将遵守限额还是突破限额作为厂商面临的选择,则构成了得益矩阵如下图的博弈。,厂商2 不突破 突破,当然不难看出该博弈是一个囚徒困境博弈。,F4,以自身最大利益为目标:各生产 2单位产量,各自得益为4 以两厂商总体利益最大:各生产 1.5单位产量,各自得益为4.5,古诺模型的纳什均衡也可以通过对划线法思路的推广来求,划线法的思路是先找出每个博弈方针对其他博弈方所有策略(或策略组合)的最佳对策,然后再找出相互构成最佳对策的各博弈方策略组成的策
13、略组合,也就是博弈的纳什均衡。,在无限策略的古诺博弈模型中这样的思路实际上也是可行的,只是其他博弈方的策略现在有无限多种,因此各个博弈方的最佳对策也有无限种,它们之间往往构成一种连续函数关系。,2.3.2 反应函数,在上面讨论的两寡头古诺模型中,对厂商2的任意产量q2 ,厂商1的最佳对策产量q1 ,就是使白己在厂商2生产产量q2的情况下利润最大化的产量,即q1是最大化问题:,的解。上式对q1求导并令导数等于0,由此得:,这样我们得到了对于厂商2的每个可能的产量,厂商1的最佳对策产量的计算公式,它是厂商2产量的一个连续函数,我们称这个连续函数为厂商1对厂商2产量的一个“反应函数” (Reacti
14、on Function)。,q2,6,3,6,3,q1,由于这两个反应函数都是连续的线性函数,因此可以用坐标平面上的两条直线表示它们,如图:,(2,2),同样的方法,我们可再求出厂商2对厂商1产量q1的 反应函数:,从图中可以看出,当一方的产量选择为0时,另一方的最佳反应为3。这正是实现市场总利润最大的产量,因为这时候等于由一个厂商垄断市场,市场总体利润就是该厂商的利益;当一方的产量达到6时,另一方被迫选择0,因为这时后者坚持生产已经无利可图。,在两个反应函数对应的两条直线上,只有它们的交点(2,2)代表的产量组合,才是由相互对对方的最佳反应产量构成的。,R1(q2)上的其他所有点(q1,q2
15、)只有q1是对q2的最佳反应,q2 不是对q1的最佳反应,而R2(q1)上的点则刚好相反。,根据纳什均衡的定义,(2,2)是该古诺模型的纳什均衡,并且因为它是惟的一个,因此应该是该博弈的结果。这个结论与前面直接根据纳什均衡定义得到的完全样。,q2,6,3,6,3,q1,(2,2),现在我们把反应函数法应用到伯特兰德模型的分析。伯持兰德1883年提出了另一种形式的寡占模型。这种模型与选择产量的古诺模型的区别在于,伯特兰德模型中各厂商所选择的是价格而不是产量。我们用简单的两寡头且产品有一定差别的伯特兰德价格博弈模型进行分析。,2.3.3 伯特兰德寡头模型,上述产品有一定差别是指两个厂商生产的是同类
16、产品,但在品牌、质量和包装等方面有所不同,因此伯特兰德模型中厂商的产品之间有很强的替代性但又不是完全可替代,即价格不同时,价格较高的不会完全销不出去。当厂商1和厂商2价格分别为P1和P2时,它们各自的需求函数为:,和,从上式可以看出产品之间是有差别的,其中d1,d20即两厂商产品的替代系数。我们也假设两厂商无固定成本,假设边际生产成本分别为c1和c2 。,两博弈方的得益函数分别为:,求出两厂商对对方策略(价格)的反应函数分别为:,和,我们直接用反应函数法分析这个博弈。上两式分别对P1和P2求偏导,并令偏导数为0,由此得:,纳什均衡(P1*,P2*)必是两反应函数的交点,即必须满足:,求解此方程
17、组即可得到纳什均衡(P1*,P2*):,记:,具体地,如果进一步假设模型中的参数分别为:,将P1*,P2*代入得益函数则可进一步得到两厂商的均衡得益值。,则可以得到: P1*P2*20, u1*u2*324。,值得一提的另外一点是,这种价格决策与古诺模型中的产量决策一样,其纳什均衡也不如各博弈方通过协商、合作得到的最佳结果,因此也是囚徒困境的一种。,上述模型是伯特兰德模型较简单的情况。更一般的情况是有n个寡头的价格决策,并且产品也可以是无差别的。,随着社会经济的不断发展,我们越来越无法回避公共资源利用、公共设施提供和公共环境保护等方面的问题。而在这些问题中,也包含了众多的博弈关系。我们以人们对
18、公共资源利用方面的博弈关系为例来作一些讨论。,2.3.4 公共资源问题,在经济学中,所谓公共资源是指具有: (1)没有哪个个人、企业或组织拥有所有权; (2)大家都可以自由利用,这样两个特征的自然资源或人类生产的供大众免费使用的设施和财货。,例如大家都可以开采使用的地下水,可自由放牧的草地,可自由排放废水的公共河道(假设政府未予限制),以及公共道路、楼道的照明灯等。,由于公共资源有上述两个特征,因而利用这些资源时不支付任何代价,除非政府将这些资源收归国有,并对使用者征收资源税或收取类似的费用。,经济学者们很早就己经开始认识到,在人们完全从自利动机出发自由利用公共资源时,公共资源倾向于被过度利用
19、、低效率使用和浪费,并且过度利用会达到任何利用它们的人都无法得到实际好处的程度。,我们用下面这个公共草地的放牧为例来论证这个结论。,设某村庄有n个农户,该村有一片大家都可以自由放牧羊群的公共草地。出于这片草地的面积有限,因此只能让不超过某一数量的羊群吃饱,如果在这片草地上放牧羊只的实际数量超过这个限度,则每只羊都无法吃饱,从而每只羊的产出(毛、皮、肉的总价值)就会减少,甚至只能勉强存活或要饿死。,假设这些农户在夏天才到公共草地放羊,而每年春天就要决定养羊的数量,因此可看作各农户在决定自己的养羊数量时是不知道其他农户养羊数的,即各农户决定养羊数的决策是同时作出的。,再假设所有农户都清楚这片公共草
20、地最多能养多少只羊和在羊只总数的不同水平下每只羊的产出。这就构成了n个农户之间关于养羊数的一个博弈问题,并且是一个静态博弈。,在此博弈中,博弈方就是n个农户;他们各自的策略空间就是他们可能选择的养羊数目qi(i=1,2, ,n)的取值范围。,当各农户养羊数为q1、q2、 、qn时,在公共草地上放牧羊只的总数为Qq1q2qn ,根据前面的介绍,每只羊的产出应是羊群总数Q的减函数VV(Q)V(q1、q2、 、qn)假设购买和照料每只羊的成本对每个农户都是相同的不变常数c,则农户i养qi只羊的得益函数为:,为了使讨论比较简单和能得到直观的结论,我们进一步设定下列具体数值。每只羊的产出函数为: V10
21、0Q100(q1q2qn),由于羊的数量不是连续可分的,田此上述函数不是连续函数。但我们在技术上也可以把羊的数量看作连续可分的,因此上述得益函数仍然可当作连续函数来处理。,假设n3,即只有三个农户,成本c4。这时, 三农户的得益函数分别为:,三个反应函数的交点 (q1*,q2*,q3*)就是博弈的纳什均衡。我们将q1*,q2*,q3*代入上述应函数,并解此联立方程组,即得q1*q2*q3*24,再将其代入三农户的得益函数,则可得u1*u2*u3* 576,此即三农户独立同时决定在公共草地放羊数量时所能得到的利益。,分别求三农户各自对其他两农户策略(养羊数)的反应函数,得:,为了对公共资源的利用
22、效率作出评价,我们同样也可讨论总体利益最大的最佳羊只数量。设在该草地上羊只的总数为Q。则总得益为:,使总得益u最大的养羊数Q*必使总得益函数的导数为0,容易求得:Q* 48, u* 2304。该结果比三农户各自独自决定自己的养羊数量时三农产得益的总和1728大了许多。而此时的养羊数Q * 48则比三农户独立决策时草地上的羊只总数32472小,因此,三农户独立决策时实际上使草地处于过度放牧的情况,浪费了资源,农户也没有获到最好的效益。,如果各农户能将养羊数自觉限制在48316只,则他们都能得到更多的利益。但问题是他们面临的也是种囚徒的困境局面,因此很难实现这种理想的合作的结果。这个例子再一次证明
23、了纳什均衡,或者说非合作博弈的结果有可能是低效率的。,在本例中,如果利用上述草地资源的农户数进一步增加,则纳什均衡的效率会更低;如允许外来者任意加入利用该公共资源的行列,则所有利用该资源的人的利益很决都会消失,即羊只总数会随着放牧农户数的增加而增加到刚好不至于亏损的水平,各农户将完全不能从在公共草地上养羊得到任何好处,公共资源等于完全被浪费掉。,公共资源利用方面常会出现这样的悲剧,原因是每个可以利用公共资源的人都相当于面临着 一种囚徒的困境;在总体上有加大利用资源可能(至少加大利用者自身还能增加得益)时,自己加大利用而他人不加大利用则自己得利。自己加大利用但其他人也加大利用则自己不至于吃亏,最
24、终是所有人都加大利用资源直至再加大只会减少利益的纳什均衡水平,而这个水平肯定比实现资源最佳利用效率,同时也是个人最佳效率的水平要高。,F5,虽然对于单个农户来说,他增加一头羊是有利的。但是如果所有的农户都看到这一点,都增加一头羊,那么草地将被过度放牧,从而不能满足牛的需要,导致所有农户的羊都饿死。这个故事就是公共资源的悲剧,即哈定悲剧。最初由英国留学生哈定(GarritHadin)1968年在科学杂志上发表的文章Tragedy of Commons(公共策略)中提出。哈定指出:“在共享公有物的社会中,每个人,也就是所有人都追求各自的最大利益。这就是悲剧的所在。每个人都被锁定在一个迫使他在有限范
25、围内无节制地增加牲畜的制度中。毁灭是所有人都奔向的目的地。因为在信奉公有物自由的社会当中,每个人均追求自己的最大利益。公有物自由给所有人带来了毁灭。”,比如市场经济中存在着污染,但政府并没有管制的环境,企业为了追求利润的最大化,宁愿以牺牲环境为代价,也绝不会主动增加环保设备投资。按照看不见的手的原理,所有企业都会从利己的目的出发,采取不顾环境的策略,从而进入“纳什均衡”状态。如果一个企业从利他的目的出发,投资治理污染,而其他企业仍然不顾环境污染,那么这个企业的生产成本就会增加,价格就要提高,它的产品就没有竞争力,甚至企业还要破产。这是一个“看不见的手的有效的完全竞争机制”失败的例证。直到20世
26、纪90年代中期,中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时,企业才会采取低污染的策略组合。企业在这种情况下,获得与高污染同样的利润,但环境将更好。,对公用地悲剧的防止有两种办法:一是在制度上的,二是在道德约束上。所谓制度的方法,即建立中心化的权利机构,无论这种机构是公共的还是私人的-私人对公用地的拥有,即处置便是在使用权利。例如,在河水污染问题,每个企业都会为了使自身收益最大化而无限制地向公共河流中排放污水,每个个人也会因为只考虑自己的方便而向河水中乱扔污物.对此,公共管理机构或是可以通过制度创新,将河水的清污费用“内化“为企业的成本,或是通过制裁措施增加个人污
27、染河水的成本。没有这样的公共管理措施,公共河流就会像前面所说的公用牧场一样被人们共同破坏掉。,公共品问题一定要有人协调和管理。就一个国家来说,最重要的公共品是国防,教育,基础设施和其他政府部门.政府责无旁贷,要用好来自纳税人的钱,把文化教育,社会保障,基础设施和国防公安等事情做好。社区要有专人协调管理,把身边看起来很琐碎但是弄不好有损工作和生活环境的事情做好.只有如此,才会走出“哈丁公用地“的悲剧。,反应函数法的概念和思路非常简单明了,它解决了我们分析一般的具有无限多种策略,有连续策略空间的博弈模型,因此反应函数法在博弈分析中非常有用。,2.3.4 反应函数的问题和局限性,但这并不等于说有了反
28、应函数的概念,就可以解决所有博弈的分析,或者分析出所有博弈的最终结果。,因为在许多博弈中,博弈方的策略是很有限的而不是很多的,更不是连续的,博弈方的得益函数并不是连续的可导函数,所以无法用先求导找出各个博弈方的反应函数,再解联立方程组的方法求纳什均衡,反应函数法在分析这样的博弈模型时不能发挥作用。,更进一步,即使我们讨论的博弈问题中各博弈方的得益函数可以求导,可以导出各个博弈方的反应函数。也并不意味着反应函数法就一定能完全解决这些博弈。,因为在有些博弈问题中,各个博弈方的得益函数比较复杂,因而各自的反应函数也比较复杂,并不总是能够保证各个博弈方的反应函数有交点,特别是不能保证有惟一的交点。,事
29、实上,后面将反应函数扩展到混台策略时,就很容易出现多重交点反应函数的图形。,2.4 混合策略和混合策略纳什均衡,2.4.1 严格竞争博弈和混合策略的引进,取胜关键:1、不能让另一方猜到自己的策略,尽可能猜出对方策略2、博弈方一定要避免自己的选择带有规律性3、以一定的概率选择策略,当两个博弈方都以1/2的概率随机选择正面、反面时,双方都无法根据对方的选择方式,选择或调整自己的策略或选择方式获得利益,从而在双方对两种可选策略随机选择概率分布的意义上达到了一种稳定,或者说均衡。这种策略选择方式被称为“混合策略”,猜硬币博弈中两博弈方都以(1/2,1/2)的概率分布随机选择正面和反面的混合策略组合,就
30、是一个混合策略纳什均衡,而且是唯一的混合策略纳什均衡。,混合策略:在博弈 中,博弈方 的策略空间为 ,则博弈方 以概率分布 随机在其 个可选策略中选择的“策略”,称为一个“混合策略”,其中 对 都成立,且,策略 得益 博弈方1 (0.8,0.2) 2.6 博弈方2 (0.8,0.2) 2.6,田忌赛马,小偷和守卫博弈,一小偷欲偷窃有一守卫看守的仓库,如果小偷偷窃时守卫在睡觉,则小偷就能得手,偷得价值为V的脏物;如果小偷偷窃时守卫没有睡觉,则小偷就会被抓住。设小偷被抓住后要坐牢,负效用为P,守卫睡觉而未遭偷窃则有S的正效用,因睡觉被窃要被解雇,其负效用为D。而如果小偷不偷则他既无得也无失,守卫不
31、睡觉意味着出一份力赚一分钱,他也没有得失。,小偷和守卫的博弈,加重对守卫的处罚:短期中的效果是使守卫真正尽职 在长期中并不能使守卫更尽职,但会降低盗窃发生的概率,Pt*,Pt* ,守卫睡的 期望得益 S(1Pt)(D)Pt,小偷和守卫的博弈,加重对小偷的处罚:短期内能抑制盗窃发生率 长期并不能降低盗窃发生率,但会是的守卫更多的偷懒,Pg*,Pg* ,当我们为减少盗窃率,加重对小偷的惩罚时,最终的结果却带来了守卫的偷懒,形成了一种政策目标和政策结果之间的意外关系,这就被称为“激励的悖论”。小偷偷东西,保安渎职。为了避免这种情况,是加重对小偷的惩罚呢,还是加重对保安的惩罚?,悖论,有个很有趣、很简
32、单的概念悖论,简单说就是自相矛盾的说法。即如果承认这个说法正确,就能推出这个说法不正确,反之,如果承认这个说法不正确,却又能推出这个说法正确。悖论问题至今仍令统计专家与决策理论学者争论不休。 究竟什么是悖论,看看下面几个悖论故事,你就一目了然。,鳄鱼和小孩的悖论,鳄鱼抓住了一个小孩,对他说:“我会不会吃掉你?你要答对了,我就放了你;答错了,就吃了你。” 小孩想了想,说:“你会吃掉我。” 鳄鱼懵了,它该怎么办呢?“我要是吃了你,你就说对了,我不该吃你;我要是不吃你,你又说错了,我该吃了你我晕!” 小孩乘机跑了,鳄鱼十分沮丧:他要说我会放了他就好了。,堂吉诃德悖论,堂吉诃德里描写了一个国家,它有一
33、条奇怪的法律:每个异乡人到此都要回答一个问题:你来做什么?答对了,一切好说;答错了,就要被绞死。(当然,对错是由人家说了算 的 ) 一个人回答:“我来是为了被绞死。”士兵像鳄鱼一样懵了:如果绞死他,他就对了,不该死;可是放了呢?他又错了,该死。怎么办? 到了国王那里,他也想了好久,说:“无论怎么做都不对,还是我法外开恩,放了他吧。,理发师悖论,理发师悖论是由罗素提出的,罗素不但是哲学家,也是一位数学家,他提出这个悖论是为了说明数学中的集合问题。其大意是:某城里有一个理发师,他只给不肯自己刮脸的人刮脸,那么,他给不给自己刮脸呢?,圣彼得堡悖论,2.4.2 多重均衡博弈和混合策略 夫妻之争的混合策
34、略纳什均衡,策略 得益 博弈方1 (0.75,0.25) 0.67 博弈方2 (1/3,2/3) 0.75,制式问题,A B 得益厂商1: 0.4 0.6 0.664厂商2: 0.67 0.33 1.296,市场机会博弈,进 不进 得益厂商1: 2/3 1/3 0厂商2: 2/3 1/3 0,2.4.3 混合策略和严格下策反复消去法,纳什均衡(M,R),双方得益为(3,3),2.4.4 混合策略反应函数,反应函数:一博弈方对另一博弈方每种可能 的决策内容的最佳反应决策构成的函数。,在混合策略的范畴内,博弈方的决策内容为 选择的概率分布,反应函数就是一方对另一方 的概率分布的反应,同样也是概率分
35、布。,2.3.1 混合策略反应函数,夫妻之争博弈,2.5 纳什均衡的存在性,纳什定理: 在一个由n个博弈方的 中,如果n是有限的,且 都是有限集(对 ), 则该博弈至少存在一个纳什均衡,但可能包含混合策略,2.6 纳什均衡的选择和分析方法扩展,2.6.1 多重纳什均衡博弈的分析 帕累托上策均衡 风险上策均衡 聚点均衡 相关均衡,帕累托上策均衡,显然,(和平,和平)构成本博弈的 一个帕累托上策均衡。,依据帕累托效率意义上的优劣关系 选择出来的纳什均衡称为帕累托上策均衡。,风险上策均衡,帕累托上策均衡并不是有强制力的法则,(U, L)是帕累托上策均衡,考虑风险因素,(D,R)具有相对优势。 称(D
36、,R)是风险上策均衡。,聚点均衡,可以利用规则以外的特定信息,如博弈方共同的 文化背景中的习惯或规范,共同的知识,或者具有特 定意义事物的特征,某些特殊的数量、位置关系等。,例如:报时、城市博弈,报时博弈中的“0点”或“12点”这样策略为该博弈的“聚点”。在多重纳什均衡的博弈中,双方同时选择一个聚点构成的纳什均衡称为聚点均衡。,聚点均衡来自谢林的冲突的策略,这本博弈论的经典之作没有方程,也没有数学符号。在该书中谢林举了很多例子。比如其中一个例子:你和其他参与人均从下面一组数中选择一个数,并 画上圈 :7,100,13,261,99,666。如果你们选择相同则赢利越多。 你会选择哪个数呢?谢林发
37、现选 7 是最常见的策略,但在一群比较贪婪的人群中,666也有可能成为聚点。 如果博弈重复多次,则过去的历史常常就规定了聚点之所在。我 所 在的学院每到周一下午就会开会,大家在会议室的座位本来是不固定的,但是每学期第一次会议大家所坐的位置,基本上会在这个学期都是他坐的位置,因为每次开会时大家就会习惯性地坐到上次坐过的位置,这种座位配置也如同产生了聚点一样。新婚夫妻的家务分担博弈也是如此,在婚姻初期谁做家务做得多,那就意味着可能这一辈子他/她都会做更多的家务,这也是一个聚点。,相关均衡,两个纯策略纳什均衡利益相差很大,很难达成妥协,聚点均衡不适用。,进一步发展,设计“相关装置”,(1)该装置以相
38、同的可能性(各1/3)发出A、B、C三种信号;(2)博弈方1只能看到信号是否A,博弈方2只能看到该信号是否C;(3)博弈方1看到A采用U,否则采用D;博弈方2看到C采用R,否则采用L。它排除(U,R),各以1/3的概率出现(U,L)、(U,D)和(D,R),从而使双方的期望得益为10/3。,混合策略纳什均衡(1/2,1/2),(1/2,1/2)的期望得益为2.5。 均不理想,事前设计均衡选择机制。,如抛一匹硬币,出现正面博弈方1采用U,博弈方2采用L;出现反面博弈方1采用D,博弈方2采用R。避免(U,R)出现,双方期望得益均为3。,相关均衡概念由博弈论专家奥曼提出。如果博弈的参与人可以根据某个
39、共同观测到的信号选择行动,就可能出现相关均衡。 司机和行人的博弈是一个典型的相关均衡。在一条马路上,一个行人试图到马路对面。行驶中的司机可以选择停车让行人,也可以选择不停;行人可以选择穿越马路或者继续等待。,可以发现,该博弈的纳什均衡有两个:(等待,行驶)和(穿越,停车)。但是,如果行为和司机没有协调而自由地选取策略,完全有可能出现非均衡结果,比如(穿越,行驶)和(停车,等待)。而红绿灯作为一个可观察的信号,使得这个博弈具有了相关均衡,正因为不知道对方的具体选择,于是大家就约定红灯停车行人,绿灯就停人行车,通过观察红绿灯信号来协调双方的行动,这就是相关均衡。,一、多人博弈中的共谋问题,2.6.
40、2 共谋和防共谋均衡,2.6.2 共谋和防共谋均衡,本博弈的纯策略纳什均衡:(U,L,A)、(D,R,B) 前者帕累托优于后者。博弈的结果会是什么呢? (U,L,A)有共谋 (Coalition)问题:博弈方1和2同时偏离。,二、防共谋均衡,如果一个博弈的某个策略组合满足下列要求: (1)没有任何单个博弈方的“串通”会改变博弈的结果,即单独改变策略无利可图; (2)给定选择偏离的博弈方有再次偏离的自由时,没有任何两个博弈方的串通会改变博弈的结果; (3)依此类推,直到所有博弈方都参加的串通也不会改变博弈的结果。称为“防共谋均衡”。前面例子中:(D,R,B) 是防共谋均衡(U,L,A)不是防共谋均衡,2.6.2 共谋和防共谋均衡,(D,R,B) 是防共谋均衡(U,L,A)不是防共谋均衡,