第五讲-完全信息-动态.ppt-道客多多

资源描述

1、第五讲完全信息动态博弈,前面讲述的纳什均衡有三个问题：第一，纳什均衡的多重性，但这并不是纳什均衡最严重的问题；第二，在纳什均衡中，参与人在选择自己的策略时，把其他参与人的策略当作是给定的，不考虑自己的选择如何影响对手的策略。动态博弈时这就有问题了。当一个人行动在先，另一个人行动在后时，后者自然会理性地预期这一点，所以不可能不考虑自己的选择对其对手选择的影响。第三，这由第二个问题引发来，由于不考虑自己选择对别人选择的影响，纳什均衡允许了不可置信威胁的存在。,威胁是指一个参与人承诺一旦其他参与人偏离均衡，他将采取的某种行动，威胁是有一定影响力的，尽管可能它从未被实施过。,在位者默许斗争进入

2、 40，50 -10，0进入者不进入 0，300 0，300市场进入博弈中，如若进入者真的进入，在位者的最优行动显然是默许而不是斗争，因为默许带来50的利润，所以斗争就是一种不可置信的威胁。但纳什均衡概念承认了这种不可置信的威胁，所以（不进入，斗争）就成为一个纳什均衡。,R （0，0） U L （3，1） D （2，2）修改的市场进入博弈,1,2,试说明上述不可置信的威胁是什么？现实生活中的例子：父亲坚决不同意女儿的婚事，威胁说，如果女儿不与相爱的人断绝关系，他就与女儿断绝父女关系。,逆向归纳法,逆向归纳法可以排除不可置信的威胁。之所以可以如此，根本原因在于采用了一种分析动态博弈的有效方法

3、逆向归纳法，即从动态博弈的最后一个阶段博弈方的行为开始分析，逐步倒推回前一个阶段相应博弈方的行为选择，一直到第一个阶段的分析方法。一般方法是：从最后一阶段开始分析，每一次确定出所分析阶段博弈方的选择和路径，然后再确定前一阶段的博弈方选择和路径。,借钱投资问题,设甲准备投资开采一个价值4万元的金矿，但缺1万元资金，而乙正好有1万元可以投入。甲向乙借这1万元用于开矿，并承诺收益双方平分。假设金矿的价值经权威探测，是确实的。乙是否应该借钱给甲呢？乙最关心的是甲得到金子后是否履行诺言跟乙平分收益。万一甲采到金子后不分收益，甚至赖账，乙连本钱都收不回来。我们用下面的扩展形的方法分析：,借款投资的扩展

4、形（博弈树）,乙,甲,借,不借,分,不分,（2，2）,（0，4）,（1，0）,分析,乙先决策：不借，则博弈结束，乙保住自己的1万元，但得不到投资利润。若乙选择借，则到博弈的另一阶段，由甲决策：分或是不分。不论分与不分，博弈都将结束。分，则皆大欢喜，甲得到了2万元采金收益，乙的1万元投资也增值到2万元。不分，则甲独得4万元，而乙则一无所有。乙清楚自己的处境，他决策完全取决于甲的分钱承诺是否可信。不考虑道德因素，甲的分钱承诺并不可信。因为，甲不分才能使自己收益最大化。所以，本博弈以乙不借钱而结束。,改进,本博弈因为甲的不可信的分钱承诺而使甲乙的合作没有成功，开矿带来的3万元的社会效益也没能实现。能

5、否改进措施，使甲的承诺变为可信？我们增加一个对甲的行为的制约。当甲选择分钱时，双方达到最佳结局。当甲选择不分时，让乙通过打官司来保护自己的利益，打官司乙肯定能赢，但要耗费财力物力，假设乙除掉打官司的花费，正好收回1万元投资，而甲的全部采金收入将被没收。这样，就变成了三阶段的动态博弈。,有可信的诺言和威胁时的博弈树,乙,甲,乙,不借,借,分,不分,打,不打,（2，2）,（1，0）,（0，4）,（1，0）,分析,加上了第三博弈阶段，结果就不同了。当甲选择不分时，乙不打官司，则什么都没有了，但打官司可以收回自己的1万元投资，即使不以惩罚甲带来的心理效用来考虑，乙的打官司威胁是可信的。则甲的分钱承诺就

6、是可信的了。所以本博弈的解应是乙先选择借，当甲选择不分时选择打官司。均衡路径是借分。达到最佳结果。可见，完善的法律制度，不仅能保障社会公平，还能提高社会经济效率。,但是要充分保障社会公平和经济活动的效率,法律制度必须要有足够的震慑作用,而且法律制度要充分发挥作用,必须和人们的公平观等价值观、习俗等非正式制度相一致，为人们接受才能发挥作用。这样，如果发生纠纷，人们就会求诸于法律制度，而不是私下解决。现实中的法律制度总不是那么理想，赢了官司反而亏了钱的事有一定的普遍性。,法律保障不足时的博弈树,乙,甲,乙,不借,借,分,不分,打,不打,（2，2）,（-1，0）,（0，4）,（1，0）,市场占领有可

7、信威胁的情形,后进者,先到者,进,不进,打击,不打击,（-3，6）,（5，5）,（0，10）,市场占领有不可信威胁的情形,先到者,进,不进,打击,不打击,（-3，6）,（5，8）,（0，10）,后进者,分析,前一个图中，当后来者选择进入市场时，先到者打击的收益是6，不打击的收益是5，因此，打击是一个可信的威胁，那么后来者选择进得-3，不进得0，当然应选择不进。后一个图中，当后来者选择进入市场时，先到者打击的收益是6，不打击的收益是8，因此，打击是一个不可信的威胁，那么后来者选择进得5，不进得0，当然应选择进。后一种情形是可能的。当后进者进入市场后，进一步开拓了市场，其得益并非从前者手中夺取的。

8、,子博弈完美纳什均衡,泽尔腾（1965）提出了“子博弈完美纳什均衡”（sub-game perfect Nash equilibrium）概念的目的就是要将那些包含不可置信威胁策略的纳什均衡从均衡中剔除，从而给出动态博弈结果的一个合理预测。,子博弈是一个对于所有参与人的信息集来说都是单结的结，这个结的后续结以及在相应的终点结处的支付这三个要素所组成的博弈。一个策略组合是一个完美子博弈纳什均衡，如果：1它是整个博弈的纳什均衡；2它是每个子博弈的纳什均衡。,跟随领头羊表明只要添加一点复杂性,就使得策略式表述变得晦涩难懂,几无用武之地。策略式如下。琼斯 L/L,L/S L/L,S/S S/L,L/

9、S S/L,S/S 大 2，2 2，2 -1，-1 -1，-1 史密斯小 -1，-1 1，1 -1，-1 1，1,均衡策略结果E1 大，（L/L,L/S）双方都选择大E2 大，（ L/L,S/S）双方都选择大E3 小，（S/L,S/S）双方都选择小在以后的分析中我们将讨论均衡E1和E3可以被我们通过纳什均衡的精炼所排除。,小（1，1）小大（-1，-1）小（-1，-1）大大（2，2）图1扩展式下的跟随领头羊,S,J1,J2,跟随领头羊有三个子博弈：（1）整个博弈；（2）从结J1开始的子博弈；（3）从结J2开始的子博弈。E1只能在子博弈（1）和（3）上达到纳什均衡

10、；E3只能在子博弈（1）和（2）上达到纳什均衡；所以只有E2在所有的子博弈上是纳什均衡,下面分析房地产开发博弈,开发（-3，-3）开发不开发（1，0）开发（0，1）不开发不开发（0，0）房地产开发博弈,A,B1,B2,1写出房地产开发商博弈的策略式表达2找出有哪几个纯策略纳什均衡3找出子博弈完美纳什均衡,开发商A 开发，开发开发，不开发不开发，开发不开发，不开发开发 -3，-3 -3，-3 1，0 1，0B 不开发 0，1 0，0 0，1 0，0,有三个纯策略纳什均衡，（开发，不开发，开发），（开发，不开发，不开发），（不开发，开发，开发）。唯一的子博弈完美纳什

11、均衡是开发，不开发，不开发）。,找出子博弈完美纳什均衡,1,2,1,U,D,L,R,D,U,（0，2）,（0，1）,（1，3）,（2，0）,在第三阶段，参与人1的最优选择是U；在第二阶段，因为参与人2知道，如果自己选择R，参与人将在第三阶段选择U，因此参与人2在第二阶段最优选择是L；在第一阶段，参与人1知道，如果博弈进入第二阶段，参与人2的最优选择是L，因此参与人在第一阶段的最优选择是U。,这样均衡结果是参与人在第一阶段选择U结束。子博弈完美纳什均衡是（U， U ，L）这里的U和L分别是参与人1和参与人2在非均衡路径上的选择。,承诺行动与子博弈完美纳什均衡,如果参与人能在博弈之前采取某种措施改

12、变自己的行动空间或支付函数，原来不可置信的承诺或威胁就可能变得可置信，博弈的精炼均衡就会相应改变。我们将这些为改变博弈结果而采取的措施称为“承诺行动”（commitmment）,将承诺行动纳入房地产开发博弈，如果在A决策之前，B 与某个客户签订一个合同，规定B在某一时刻交付若干面积的写字楼办公室，如果B不履约，将赔偿客户3.5。这个合同就是一个承诺行动。有了这个承诺行动，B的开发就不再是个不可置信的威胁，而是可置信的威胁，因为此时B的最优选择是开发，不管A的选择是什么。子博弈纳什均衡是（不开发，开发，开发）。,在许多情况下，承诺行动对当事人是很有价值的。特别地，有些情况下，一个参与人可以通过减

13、少自己的选择机会使自己受益，原因在于保证自己不选择某些行动可以改变对手的最优选择。承诺行动的一个典型例子就是项羽的“破釜沉舟”。,序贯理性（sequential rationality）是这样一种概念：一个参与人在博弈的每一个点上都重新优化自己的选择并且把自己在将来会重新优化其选择这一点考虑在内了，也就是说考虑了别人的选择和自己的选择的互相影响。这是忽略沉没成本和理性预期这两种经济学观点的结合。如今序贯理性已经成为均衡的标准准则。,子博弈完美纳什均衡存在的问题,逆推归纳法最大的问题是对博弈方理性的要求太高，不仅要求所有博弈方都有高度的理性，不允许犯任何错误，而且要求博弈方相互了解和信任对方的理

14、性，或者说有“理性的共同知识”。而现实生活中的决策者通常达不到这样的理性高度。这样的话，如果其他博弈方偏离子博弈完美纳什均衡，应该怎么样进行后面的博弈呢？,1,2,1,L,R,M,N,S,T,（0，2）,（0，1）,（1，3）,（2，0）,用逆推法可以找出该博弈的子博弈纳什完美均衡为“博弈方1在第一阶段选择L，第三阶段选择T；博弈方2在第二阶段选择N”，相应博弈路径是博弈方1第一阶段选择L。如果考虑到博弈方的有限理性（Bounded Rationality），博弈方1就有可能在第一阶段犯错误，采用R而不是L。如果博弈方2是理性的，他应该如何选择呢？,这样博弈方2在第二阶段的选择就出现了问题，博

15、弈方2还应该相信博弈方1是理性的吗？或者说博弈方2应该认为博弈方1的错误是偶然发生的吗？,泽尔滕（Selten）为了捍卫逆推归纳法理论，将偏离行为解释为均衡的“颤抖” （trembles）他认为，扩展式隐含了参与人犯错误的可能；如果参与人在每个信息集上犯错误的概率是独立的小概率（因而参与人不会犯系统性错误），那么不论过去的行为与逆推归纳法有如何的不同，参与人应该继续使用逆推归纳法。,颤抖手均衡,博弈方相互怎样理解对方的错误？如果不相信犯错误的博弈方的理性，后面怎样进行自己的判断？泽尔顿提出的“颤抖手均衡”思想是解决这类问题的重要思想。先用一个简单的静态博弈问题来说明。 2 L R U 1 D

16、,10,0,6,2,10,1,2,0,这里（U,R)和（D,L）都是纳什均衡。如果不考虑偏差，两个均衡都是稳定的。如果考虑偏差，不论多小，博弈方1选择U都比选D好。因此（D,L）就变成不稳定的了。组合（U,R) 则不同，不论博弈方2是否偏离R,博弈方1都不必要偏离U,反过来，虽然博弈方1从U偏离到D对他的支付有不利影响，只要博弈方1偏离的可能性不超过2/3,博弈方2就不必选L,因此（U,R)是稳定的。就是说（U,R)对于有较小的偏差来说，具有稳定性，象这样的策略组合称为“颤抖手均衡”,颤抖手均衡,博弈方相互怎样理解对方的错误？如果我们把上面这个博弈中博弈方1的支付作少量的改变。就使得原来的两

17、个纳什均衡都变成了颤抖手均衡。 2 L R U 1 D,9,0,6,2,10,1,2,0,这样（D，L）也变成了颤抖手均衡。因为即使博弈方1仍然会考虑博弈方2偏离L错误选择R的可能性，但只要这种可能性小于1/5，那么博弈方1坚持选择D，而不是选择U 。,从上不难看出，一个策略组合要是一个颤抖手均衡，首先必须是纳什均衡，其次不能包括任何“弱劣均衡”，也就是偏离对偏离者没有损失的策略。包括弱劣策略的纳什均衡不可能是颤抖手均衡，因为它经不起任何非完全理性的“扰动”，缺乏在有限理性条件下的稳定性，就象经不起考验的“爱情”，真正的“爱情” 应该是满足颤抖手均衡或者说是真正的“爱情” “颤抖手的爱情”。,

18、顺推归纳法,颤抖手均衡只是理解博弈方错误和完美均衡的方法之一，现实中也有用顺推归纳法来处理这样的问题。所谓顺推归纳法，就是博弈方根据前面阶段的行为，包括偏离特定均衡路径的行为，推断他们的思路并为后面阶段的博弈提供依据的分析方法。它考虑的是博弈方有意识偏离子博弈完美纳什均衡的可能性，而不是偶然的错误。,2 s w 1 s w这是一个第二阶段为静态博弈的动态博弈问题。如果第一阶段1选d,则博弈结束，双方各得2；如果1选r则第二阶段有三个纳什均衡：纯策略的（s,w)和混合策略的双方以1/4和3/4选s和w。,r,d,2,2,0,0,3,1,1,3,0,0,三个均衡的平均得益都小于1选D的得益2.博弈

19、的均衡之一是1在第一阶段选D，如果到了第二阶段选w.（Dw,s)是子博弈完美纳什均衡，也是颤抖手均衡。但这个均衡是不稳定的。第一阶段1选R就是为了在第二阶段选s实现更大收益。如果1是有意这样做，那么2在第二阶段就只能选w,这样在这个博弈中更可能实现的就是另一个子博弈完美纳什均衡（R s,w).这种分析的方法就是顺推归纳法。作为博弈方的2要考虑的是1的有意识选择，而不是无意的错误。把上面的问题简化为下面的静态博弈,博弈的简化形式： 2 s w d 1 r s r w,2,2,2,2,0,0,3,1,1,3,0,0,前面讨论的主要问题是现实中决策者理性的局限对逆推归纳法和子博弈完美纳什均衡分析预测

20、能力的影响。似乎隐含着如果决策者满足完全理性的假设，那么博弈的结果就一定可以通过逆推归纳法和子博弈完美纳什均衡分析预测，如果进一步运用颤抖手均衡和顺推归纳法等思想，就可以得出更精确的预测。但这不完全是事实，因为在动态博弈中还有其他意想不到的困难。,蜈蚣博弈,前面讨论了现实中决策者的理性局限和逆推归纳法、子博弈完美纳什均衡，如果进一步考虑颤抖手均衡和顺推归纳法，是否就可以完美的解决此类的博弈问题？,1,2,1,1,2,D,d,D,D,d,R,r,R,R,（1，1）,（0，3）,（2，2）,（99，99）,（98，101）,r,(100,100),这是一个完全且完美信息的动态博弈。如果用逆推归纳法

21、，得到的子博弈完美纳什均衡是第一阶段1选D，博弈结束，双方得益都是1。在这里可以看出，从个体理性出发的最优选择却可能导出极差的结果。但蜈蚣博弈受到重视，是直觉上的结论和分析的结果不一致。人们曾经进行实验，绝大多数随意选择的博弈方在进行博弈时，都不会出现上述逆推归纳法给出的预测结果。,问题在哪里？从1第一阶段选R把主动权交给2这一点，可以知道，1的损失是1，即使2选择了d,自己的损失也不大。自己第一阶段选D虽然确保得1，但和选R保留得到99甚至100的可能性相比，选D并不是最优选择，选R是更理性的选择。至少应在开始阶段选R使博弈继续下去，双方都因有较大利益而显现出投机性，出现于预测结果不一致的可能性很大。若博弈方1在第一阶段确实选择了R，2会怎样选？他若能理解1选R所包含的信息，他也会让博弈继续进行下去而不是结束博弈。初步合作的成功会提高彼此的信心，合作会继续，进一步否定逆推归纳法的结果。,不能期望合作会一直进行下去。随着博弈的临近结束，双方合作的利益越来越小，停止合作的可能性越来越大。合作持续到最后一个阶段几乎是不可能的。逆推归纳法肯定会在某一阶段开始起作用。根据以上推断，如果博弈的阶段大大减少，比如只有3到5个阶段，合作的可能性就小很多，因为合作的利益变小了。反之，如果蜈蚣足够长，合作的可能性就大大增加。,

展开阅读全文