1、第五讲:“开金矿”博弈,完全且完美信息动态博弈的求解,1,“静态博弈”与“动态博弈”,在静态博弈中,所有参与人同时行动(或者,行动有先后,但没有人在自己行动之前观测到别人的行动);在动态博弈中,参与人的行动有先后顺序,后行动者在自己行动之前能观测到先行动者的行动。,2,Dynamic games are the ones where the timing of decision making plays a role.,3,4,战略式表述(Strategic Form Representation),(1)参与人集合;(2)每个参与人的战略集合;(3)由战略组合决定的每个参与人的支付。,5,扩
2、展式表述(Extensive Form Representation),参与人集合;参与人的行动顺序(the order of moves);参与人的行动空间(action set);参与人的信息集(Information set);参与人的支付函数;外生事件(自然的选择)的概率分布。,6,7,Contents,1.“开金矿博弈”问题的描述2.有法律保障的“开金矿博弈”3.法律保障不足的开金矿博弈4.相机选择与策略中的可信性问题5.逆推归纳法6.子博弈7.子博弈完美纳什均衡,8,1.“开金矿博弈”问题的描述,9,“开金矿博弈”问题,甲在开采一价值4千万元的金矿时缺1千万元资金,而乙正好有1千万
3、元资金可以投资。假设甲想说服乙将这1千万元资金借给自己用于开矿,并允诺在采到金子后与乙对半分成,乙是否该将钱借给甲呢?假设金矿的价值是经过权威部门探测认定的,没必要怀疑,则乙最需要关心的就是甲采到金子后是否会履行诺言跟自己平分,因为万一甲采到金子后不但不跟乙平分,而且还赖帐或卷款潜逃,乙会连自己的本钱都收不回来。,10,“开金矿博弈”问题的扩展式表述,11,博弈树给出了有限博弈的几乎所有信息。,博弈树的基本建筑材料(basic building block):结(node)枝(branch)信息集(Information set),12,博弈树的基本建筑材料(basic building bl
4、ock),结(node)包括“决策结”和“终点结”“决策结(decision node)”:参与人采取行动的时点。“终点结(terminal node)”:博弈行动路径的终点。,13,博弈树的基本建筑材料(basic building block),枝(branch)在博弈树上,“枝”是从一个决策结到它的直接后续结的连线(有时用箭头表述),每一个枝代表参与人的一个行动选择。,14,博弈树的基本建筑材料(basic building block),信息集(Information set)博弈树上的所有决策结分割成不同的信息集。每个信息集是决策结集合的一个子集,该子集包括所有满足下列条件的决策结:
5、(1)每一个决策结都是同一参与人的决策结;(2)该参与人知道博弈进入该集合的某个决策结,但不知道自己究竟处于哪一个决策结。,15,博弈树的基本建筑材料(basic building block),信息集(Information set)引入信息集的目的是描述下列情况:当一个参与人要做出决策时他可能并不知道“之前”发生的所有事情。,16,完美信息博弈(game of perfect information),一个信息集可能包含多个决策结,也可能包含一个决策结。只包含一个决策结的信息集称为“单结(singleton)信息集”。如果博弈树的所有信息集都是单结的,该博弈称为“完美信息博弈( game
6、of perfect information )”。完美信息博弈意味着博弈中没有任何两个参与人同时行动,并且所有后行动者能确切知道前行动者选择了什么行动,所有参与人观测到自然的行动。,17,分析博弈问题时的一般假设,博弈方都是以自身利益(得益)最大化为目的,即他们不考虑道德因素,除非能把道德因素折算成数量化的效用综合进得益中。,18,“开金矿博弈”问题的分析,【结论】:甲在第二阶段选择 “不分”; 乙在第一阶段选择“不借” 。,19,对乙来说,本博弈中甲有一个“不可信”的允诺。,20,信任?,“什么叫信心?当一个小孩子被父母抛向空中,他在空中咯咯地笑,这就是信心。什么叫信靠?当一个小孩子看到可
7、怕的怪物,立即扑向父母的怀中,这就是信靠。”,21,有限博弈,如果一个扩展式表述博弈有有限个信息集,每个信息集上参与人有有限个行动选择,我们说这个博弈是有限博弈。,22,有限完美信息博弈,定理(Zermelo,1913;Kuhn,1953):一个有限完美信息博弈有一个纯策略纳什均衡。,23,由于有不可信的允诺,使得甲、乙的合作最终成为不可能,这不是最佳结局。那么,有没有办法使甲的允诺变成可信的,从而使乙愿意选择“借”,然后甲遵守诺言选择“分”,最终增加双方的利益呢?,24,2.有法律保障的“开金矿博弈”,25,有法律保障的“开金矿博弈”,如果让乙在甲违约时可以用法律武器,即“打官司”来保护自己
8、的利益,则情况会有所不同。,26,有法律保障的“开金矿博弈”,分析表明,在乙的利益受到法律保障的情况下,甲的“分”钱允诺变成可信的会信守的允诺。,27,有法律保障的“开金矿博弈”,分析表明,在乙的利益受到法律保障的情况下,甲的“分”钱允诺变成可信的会信守的允诺。这样,乙第一阶段选择“借”就成了合理的选择。最终结果是乙在第一阶段选择“借”,甲在第二阶段选择“分”,从而博弈结束,双方各得2千万元。,28,有法律保障的“开金矿博弈”,分析表明,在乙的利益受到法律保障的情况下,甲的“分”钱允诺变成可信的会信守的允诺。这样,乙第一阶段选择“借”就成了合理的选择。最终结果是乙在第一阶段选择“借”,甲在第二
9、阶段选择“分”,从而博弈结束,双方各得2千万元。此时,乙的完整策略是“第一阶段选择借,若第二阶段甲选择不分,第三阶段选择打”,甲的完整策略是“第二阶段选择分”。,29,有法律保障的“开金矿博弈”,分析表明,在乙的利益受到法律保障的情况下,甲的“分”钱允诺变成可信的会信守的允诺。这样,乙第一阶段选择“借”就成了合理的选择。最终结果是乙在第一阶段选择“借”,甲在第二阶段选择“分”,从而博弈结束,双方各得2千万元。此时,乙的完整策略是“第一阶段选择借,若第二阶段甲选择不分,第三阶段选择打”,甲的完整策略是“第二阶段选择分”。这就是这个三阶段动态博弈的解。,30,31,在一个由都有私心、都重视自身利益
10、的成员所组成的社会中,完善公正的法律制度不但能够保障社会的公平,而且还能提高社会经济活动的效率,是实现最优效率的社会分工合作的重要保障。,32,要充分保障社会公平和经济效率,法律制度必须要满足两方面的要求:一是,对守法者有足够的保护力度;二是,对违法者有足够的震慑作用。,33,3.法律保障不足的开金矿博弈,34,法律保障不足的开金矿博弈,分析表明:乙在第三阶段选择“打”官司的威胁不是可信的,而是一种“不可信的(incredible)” “空头威胁(empty threat)”。所以乙在第一阶段选择“不借”。,35,4.相机选择与策略中的可信性问题,36,通过开金矿博弈的几个不同版本,我们清楚了
11、在动态博弈中,各个博弈方的选择和博弈的结果,与各个博弈方在各个阶段选择各种行为的可信程度有很大关系。,37,可信性问题是动态博弈分析中的一个中心问题,有时候,虽然有些博弈方很想或声称要采取某种行动,但是如果这些行动缺乏以经济利益为基础的可信性,那么这些想法或声明最终就不会有真正的效力,就只能落空。,38,通过开金矿博弈的几个不同版本,说明了动态博弈中的相机选择引出的可信性问题,以及可信性在动态博弈分析中的关键意义。,39,动态博弈中的策略,动态博弈中博弈方的策略是他们自己预先设定的,在各个博弈阶段,针对各种情况的相应行为选择的计划。,40,动态博弈中的“相机选择” 问题,动态博弈中博弈方的策略
12、实际上并没有强制力,而且实施起来有一个过程,因此只要符合博弈方自己的利益,他们完全可以在博弈过程中改变计划。我们称这种问题为动态博弈中的“相机选择”(contingent play)问题。,41,策略中的“可信性”问题,相机选择的存在使得博弈方的策略中,所设定的各个阶段、各种情况下会采取行为的“可信性”(credibility)有了疑问。也就是说,各个博弈方是否会真正、始终按照自己的策略所设定的方案行为,还是可能临时改变自己的行动方案呢?不同版本的开金矿博弈给出了实际案例。,42,相机选择与策略中的可信性问题,由于动态博弈中博弈方的策略是多阶段的行动计划,实施起来有一个过程,而且又没有强制力,
13、因此博弈方完全可以在博弈过程中改变计划,我们称这种问题为“相机选择”问题。相机选择的存在使得动态博弈中各博弈方策略设定的行为选择的“可信性”有了疑问。,43,“破釜沉舟”完全承诺(Total commitment),44,5.逆推归纳法,45,逆推归纳法,我们前面引入“可信性”问题时,对不同版本的“开金矿博弈”问题的分析结论都是正确的,对博弈方的选择和博弈结果都做出了正确的判断,都排除了博弈方不可信的行为选择。之所以能做到这一点,根本原因是采用了一种分析动态博弈的有效方法“逆推归纳法”(Backwards Induction)。这种方法的表现形式为:从动态博弈的最后一个阶段博弈方的行为开始分析
14、,逐步倒推回前一个阶段相应博弈方的行为选择,一直到第一个阶段。,46,法律保障不足的开金矿博弈,第一步:分析第三阶段乙是否打官司的选择,由于“打”官司比“不打”官司损失更大,他必然会选择“不打”官司。,47,法律保障不足的开金矿博弈,第一步:分析第三阶段乙是否打官司的选择,由于“打”官司比“不打”官司损失更大,他必然会选择“不打”官司。因此一旦博弈进行到这个阶段,结果必然是乙选择“不打”官司,双方得益为(0,4)。,48,法律保障不足的开金矿博弈,第一步:分析第三阶段乙是否打官司的选择,由于“打”官司比“不打”官司损失更大,他必然会选择“不打”官司。因此一旦博弈进行到这个阶段,结果必然是乙选择
15、“不打”官司,双方得益为(0,4)。所以在分析前两个阶段的博弈时,原来的三阶段博弈与下页的两阶段博弈是完全等价的。,49,法律保障不足的开金矿博弈,第二步:继续对该两阶段博弈运用逆推归纳法,可知甲在第二阶段选择“不分”,因此博弈可进一步化为下页的等价博弈。,50,法律保障不足的开金矿博弈,第三步:这个等价博弈已经是一个单人博弈了,可知乙将选择“不借”。,51,乙,借,不借,(1,0),(0,4),逆推归纳法,逆推归纳法事实上就是把多阶段动态博弈转化为一系列的单人博弈,通过对一系列单人博弈的分析,确定各博弈方在各自阶段的选择,最终对动态博弈结果(包括,博弈的路径、各博弈方的得益)做出综合判断,归
16、纳出各博弈方各阶段的选择,从而得出各博弈方在整个动态博弈中的策略。,52,逆推归纳法,逆推归纳法确定的各个博弈方在各阶段的选择,都是建立在后续阶段各个博弈方理性选择基础上的,因此自然排除了包含不可信的威胁或允诺的可能性,因此它得出的结论是比较可靠的,确定的各个博弈方的策略组合是有稳定性的。,53,逆推归纳法,逆推归纳法是在动态博弈分析中使用得最普遍的方法,在分析完全且完美信息动态博弈中非常有用。,54,逆推归纳法的逻辑基础,动态博弈中先行为的理性的博弈方,在前面阶段选择行为时必须会先考虑后行为博弈方在后面阶段中将会怎样选择行为,只有在博弈的最后一个阶段选择的,不再有后继阶段牵制的博弈方,才能直
17、接做出明确选择。而当后面阶段博弈方的选择确定以后,前一阶段博弈方的行为也就容易确定了。,55,逆推归纳法的一般方法,从动态博弈的最后一个阶段开始分析,每一次确定出所分析阶段博弈方的选择和路径,然后再确定前一个阶段的博弈方选择和路径。逆推归纳到某个阶段,那么这个阶段及以后的博弈结果就可以肯定下来,该阶段的选择节点等于一个结束终端。我们可以用不包含该阶段与其后所有阶段博弈的等价博弈来代替原来的博弈。,56,6.子博弈(Subgame)子博弈是动态博弈分析中一个非常关键的概念,它是动态博弈中满足一定条件的局部所构成的次级博弈。,57,子博弈(Subgame)的定义,由一个动态博弈第一阶段以外的某阶段
18、开始的后续博弈阶段构成的,有初始信息集和进行博弈所需要的全部信息,能够自成一个博弈的原博弈的一部分,称为原动态博弈的一个“子博弈”。,58,定义:一个扩展式表述博弈的子博弈G由一个决策结x和所有该决策结的后续结T(x)(包括终点结)组成,它满足下列条件:(1)x是一个单结信息集,即包含决策结x的信息集h(x)=x;(2)对于所有的xT(x),如果x” h(x),那么x” T(x)。,59,法律保障不足的开金矿博弈,如果乙在第一阶段选择了“借”,意味着这个动态博弈进行到了甲作选择的第二阶段。此时甲面临的是一个在乙已经借钱给他的前提下,自己选择是否分成,然后再由乙选择是否打官司的两阶段动态博弈问题
19、。,60,法律保障不足的开金矿博弈,按照子博弈的定义,在前页介绍的子博弈中,当甲选择“不分”,轮到乙选择“打”还是“不打”的第三阶段,是前页介绍的子博弈的子博弈,我们称后面这个子博弈为原博弈的“二级子博弈”。,61,子博弈(续),一般地,当动态博弈的阶段数更多时,还可能存在更多层次的子博弈。,62,子博弈(续),子博弈在动态博弈中是很普遍的,完美信息多阶段动态博弈基本上都有一级或多级子博弈。,63,子博弈(续),并不是动态博弈的任何部分都能构成子博弈。子博弈不能包括原博弈的第一阶段。并不是所有多阶段动态博弈都有子博弈。在不完美信息动态博弈中可能不存在子博弈。,64,7.子博弈完美纳什均衡(Su
20、bgame Perfect Nash equilibrium),65,在动态博弈分析中,纳什均衡不能排除不可信的行为选择,不是真正具有稳定性的均衡概念,因此需要发展出一个新的均衡概念,它能排除不可信的行为选择。,66,子博弈完美纳什均衡的定义,如果在一个完美信息的动态博弈中,各博弈方的策略构成的一个策略组合满足,在整个动态博弈及它的所有子博弈中都构成纳什均衡,那么这个策略组合称为该动态博弈的一个“子博弈完美纳什均衡”(Subgame Perfect Nash Equilibrium)。,67,子博弈完美纳什均衡(续),提出“子博弈完美纳什均衡”这个概念的价值在于它能够排除纳什均衡策略中不可信的
21、威胁或承诺,因此它是真正稳定的。,68,子博弈完美纳什均衡(续),“子博弈完美纳什均衡”为什么能够排除策略组合中的不可信行为呢?虽然包含不可信行为选择的策略组合可以构成整个博弈的纳什均衡,但其中的不可信行为选择至少在博弈的某些子博弈中不符合博弈方的自身利益,因而不构成这些子博弈的纳什均衡,因此要求在所有子博弈中都是纳什均衡的子博弈完美纳什均衡就排除了其中存在不可信行为选择的策略组合,从而在动态博弈分析中具有真正的稳定性。,69,子博弈完美纳什均衡(续),双方的策略组合“乙第一阶段选择借,第三阶段选择打;甲第二阶段选择分”是整个博弈的一个纳什均衡。但是,这个策略组合中乙的策略要求乙在第三阶段单人
22、博弈构成的子博弈中选择“打”,不是该子博弈的一个纳什均衡,因此根据子博弈完美纳什均衡的定义判断,这个策略组合确实不是一个子博弈完美纳什均衡。这也正是上述纳什均衡策略组合不稳定的根源。,70,子博弈完美纳什均衡(续),策略组合“乙在第一阶段选择不借,如果有第三阶段选择则选不打;甲如果有第二阶段则选不分” 是子博弈完美纳什均衡。因为该策略组合的双方策略不仅在整个博弈中构成纳什均衡,而且在两级子博弈中也都构成纳什均衡,从而不存在任何不可信的威胁或承诺,根据子博弈完美纳什均衡的定义,该策略组合构成这个动态博弈的一个子博弈完美纳什均衡。,71,子博弈完美纳什均衡(续),当两博弈方按照子博弈完美纳什均衡策
23、略组合“乙在第一阶段选择不借,如果有第三阶段选择则选不打;甲如果有第二阶段则选不分”行为时,实际上不会进行到博弈的第二、第三阶段,两个博弈方在第二、第三阶段的行为实际上不会发生。,72,子博弈完美纳什均衡(续),我们称此时第二阶段甲的选择节点和第三阶段乙的选择节点为“不在均衡路径上”(out-of-equilibrium path;off-equilibrium path )的,两博弈方的策略中在这两个节点的选择称为“不在均衡路径上的选择”。,73,子博弈完美纳什均衡(续),一个子博弈完美纳什均衡必须对博弈方在所有选择节点处的选择做出规定,包括最终不在均衡路径上的节点,而且不管是在均衡路径上的
24、选择还是不在均衡路径上的选择,都必须在相应子博弈中构成纳什均衡,不能包含任何不可信的威胁或承诺,否则就不能保证一个策略组合是子博弈完美纳什均衡。,74,“在每一个子博弈上给出纳什均衡”,构成子博弈精炼纳什均衡的战略不仅在均衡路径的决策结上最优,而且在非均衡路径的决策结上也是最优的。这是纳什均衡与子博弈精炼纳什均衡的实质区别所在。这里的要义是,战略是参与人行动规则的完备描述,它要告诉参与人在每一种可预见的情况下(每一个决策结上)选择什么行动,即使这种情况实际上并没有发生(甚至参与人并不预测它会发生),因此,只有当一个战略规定的行动规则在所有可能的情况下都是最优的时,它才是一个合理的、可置信的战略
25、。(张维迎,2012,第99页),75,“序贯理性” (sequential rationality),子博弈精炼纳什均衡就是剔除那些只有在特定情况下是合理的而在其他情况下并不合理的行动规则。博弈论专家常常使用“序贯理性”(sequential rationality)指不论过去发生了什么,参与人在博弈的每一个时点上最优化自己的决策。子博弈精炼纳什均衡要求的正是参与人应该是序贯理性的。(张维迎,2012,第99页),76,子博弈完美纳什均衡(续),子博弈完美纳什均衡本身也是纳什均衡,是比纳什均衡更强的均衡概念。泽尔腾(Selten,1965)引入“子博弈精炼纳什均衡(Subgame Perfe
26、ct Nash Equilibrium)”概念的目的是将那些包含不可置信威胁战略的纳什均衡从均衡中剔除,从而给动态博弈结果一个合理预测。简单地说,子博弈精炼纳什均衡要求均衡战略的行为规则在每一个信息集上都是最优的。(张维迎,2012,第96页),77,子博弈完美纳什均衡(续),子博弈完美纳什均衡在动态博弈分析中的地位与纳什均衡在静态博弈分析中一样,是最核心的分析概念和基本着眼点。要对动态博弈做出有效的分析,首先必须找出它们的子博弈完美纳什均衡,必须判断一个策略组合是不是子博弈完美纳什均衡。,78,子博弈完美纳什均衡(续),求完美信息动态博弈的“子博弈完美纳什均衡”最基本的方法就是逆推归纳法:引
27、进子博弈和子博弈完美纳什均衡之后,逆推归纳法事实上可以理解为:从动态博弈的最后一级子博弈开始,逐步找出博弈方在各级子博弈中的最优选择,最终找出动态博弈的子博弈完美纳什均衡。,79,子博弈完美纳什均衡(续),逆推归纳法与子博弈完美纳什均衡之间在本质上是完全一致的,找出的策略组合一定是子博弈完美纳什均衡。,80,对于有限完美信息博弈,逆推归纳法是求解子博弈精炼纳什均衡的最简便方法。因为有限完美信息博弈的每一个决策结都是一个单独的信息集,每一个决策结都开始一个子博弈。为了求解子博弈精炼纳什均衡,我们从最后一个子博弈开始。(张维迎,2012,第100页),81,Subgame Perfect Nash
28、 Equilibrium,Dynamic games are the ones where the timing of decision making plays a role.,82,Subgame Perfect Nash Equilibrium,Dynamic games are the ones where the timing of decision making plays a role. In these games the simple Nash equilibrium concept would allow outcomes which are based on non-cr
29、edible threats or promises.,83,Subgame Perfect Nash Equilibrium,Dynamic games are the ones where the timing of decision making plays a role. In these games the simple Nash equilibrium concept would allow outcomes which are based on non-credible threats or promises. In order to exclude these spurious
30、 equilibria Selten has introduced the concept of a subgame perfect Nash equilibrium, which requires Nash-type optimality in all possible subgames (Selten,1965).,84,outline,1.“开金矿博弈”问题的描述2.有法律保障的“开金矿博弈”3.法律保障不足的开金矿博弈4.相机选择与策略中的可信性问题5.逆推归纳法6.子博弈7.子博弈完美纳什均衡,85,References,谢识予. 经济博弈论(第三版)M. 上海:复旦大学出版社,2008.Gygy Szab and Gbor Fth(2007). Evolutionary games on graphs. Physics Reports 446 ,97-216张维迎. 博弈论与信息经济学M. 上海:格致出版社上海三联出版社上海人民出版社,2012.,86,