1、博弈论(Game Theory)北京理工大学人文学院经济系 刘建军, 88888888,第二章 完全信息静态博弈纳什均衡,一 博弈的战略表述 二 占优战略均衡 三 重复剔除的占优均衡 四 纳什均衡 五 纳什均衡应用举例,第一节 博弈的战略式表述:,假定有n个参与者参加博弈,序号分别为1,2,n,第i个参与者可以选择的战略集合(i的战略空间)为Si ,每个具体的战略si为Si 的元素。令 ( s1,s2,sn)为每个参与人选定一个战略的组成的战略组合, ui表示在该战略组合下参与人i的收益收益函数: ui( s1,s2,sn ),表述的战略式(标准形式)为:,博弈的战略(标准)表述包括:(1)博
2、弈的参与者,(2)每一参与者可供选择的战略集,(3)针对所有参与者可能选择的战略组合,每一个参与者获得的收益。可以用支付矩阵表述一个博弈。 例:囚徒困境。 囚徒面临的问题可用下图所示的双变量矩阵表来描述。,囚犯B,囚犯A,在此博弈中,每一囚徒有两种战略可供选择:坦白、不坦白)。在一组特定的战略组合被选定后,两人的收益由矩阵中相应单元的数据来表示。,囚徒困境的经济意义 个人理性与集体理性的矛盾:个人利益最大化 信息 信任 承诺的可信度,第二节 占优战略均衡(Dominant-stragety equilibrium)一般来说,由于每个参与者的效用(支付)是博弈中所有参与人的战略的函数,因此每个参
3、与者的最优战略选择依赖于所有其他参与人的战略选择。但在些特殊的博弈中,一个参与人的最优战略可能并不依赖于其他参与人的战略选择,就是说,不论其他参与人选择什么战略,他的最优战略是唯一的,这样的最优战略被称为“占优战略”(dominant stragety)。,1.占优战略:不论其他人选择什么战略,参与人的最优战略是唯一的,这样的最优战略称为“占优战略”(dominant strategy)。,2.占优战略均衡定义:在博弈的战略表达式中,如果对于所有的i,Si*是i的占优战略,下列战略组合称为占优战略均衡:,注意:如果所有人都有(严格)占优战略存在,那么占优战略均衡就是可以预测的唯一均衡。占优战略
4、只要求每个参与人是理性的,而不要求每个参与人知道其他参与人是理性的(也就是说,不要求理性是共同知识)。为什么?,在囚徒困境中,“坦白”是每个囚犯的占优战略。博弈的结果是两人都选择“坦白”,尽管福利不是最大。,囚犯B,囚犯A,占优战略均衡:,第三节 重复剔除严格劣战略均衡(interated dominance equilibrium)在每个参与人都有占优战略的情况下,占优战略均衡是一个非常合理的预测,但在绝大多数博弈中,不存在占优战略均衡。考虑下面的“智猪博弈”。两猪共槽吃食,按下在房间另一端的按钮,能出食8单位,按下按钮者将付出2单位的代价。若大猪先到食槽,能吃到7单位的食,小猪只能吃到1单
5、位的食;若小猪先到食槽,能吃到4单位的食,大猪能吃到4单位的食。,小猪,大猪,小猪,大猪,在此博以中,小猪的占优战略为“等待”,而大猪不存在占优战略。此时,不存在占优战略均衡。,严格劣战略:,如果把“理性的参与者不会选择严格劣战略”作为局中人的理性假设,并且局中人的理性是博弈中的共同知识,则可以通过重复剔除严格劣战略来选择均衡。,在智猪博弈中,“按”是小猪的严格劣战略,理性的小猪不会选择“按”;而大猪知道小猪是理性的,不会选择“按”。因此,博弈就变成右边的形式。显然,“等待”是大猪的严格劣战略,大猪不会选择“不按”。(按,等待)为均衡结果。,小猪,大猪,等待,按,等待,重复剔除严格劣战略:思路
6、:首先找到某个参与人的劣战略(假定存在),把这个劣战略剔除掉,重新构造一个不包含已剔除战略的新的博弈,然后再剔除这个新的博弈中的某个参与人的劣战略,一直重复这个过程,直到只剩下唯一的战略组合为止。这个唯一剩下的战略组合就是这个博弈的均衡解,称为“重复剔除的占优均衡”。,考虑下面的博弈:局中人A的战略空间为(上,下)、局中人B的战略空间为(左,中,右),收益矩阵如下:,局中人B,局中人A,左,中,上,下,右,“右”是B的相对于“中”的严格劣战略。理性的B不会选择“右”,而理性的A也知道B不会选择“右”,博弈就变为:,局中人B,局中人A,左,中,上,下,此时,“下”是A的相对于“上”的严格劣战略。
7、理性的A不会选择“下”,而理性的B也知道A不会选择“下”,博弈就变为:,局中人B,局中人A,左,中,上,此时,“左”是B的相对于“中”的严格劣战略。理性的B不会选择“下”,而理性的A也知道B不会选择“下”,博弈的结果就是:(上,中)。,上面的过程可称为“重复剔除严格劣战略”,得到的唯一均衡为重复剔除严格劣战略均衡。,注意:与占优战略均衡中的占优战略和劣战略不同,这里的占优战略或劣战略可能只是相对于另一个特定战略而言。 重复剔除的占优均衡战略组合 称为重复剔除的占优均衡,如果它是重复剔除劣战略后剩下的唯一战略组合。如果这种唯一战略组合是存在的,我们就说该博弈是重复剔除占优可解。注意:如果重复剔除
8、后的战略组合不唯一,该博弈就不是重复剔除占优可解的。,练习:在下列战略式表达中,找出重复剔除的占优均衡C1 C2 C3R1R2R3,剔除顺序:R3、C3、C2、R2,战略组合(R1,C1),注意:1、重复剔除的占优均衡结果与劣战略的剔除顺序是否有关取决于剔除的是否是严格劣战略。2、重复剔除的占优均衡要求每个参与人是理性的,而且要求“理性”是参与人的共同知识。即:所有参与人知道所有参与是理性的,所有参与人知道所有参与人知道所有参与是理性的,举例:C1 C2 C3R1R2R3,剔除顺序:C2、R2、C1、R3,战略组合(R1,C3) 故一般使用严格劣战略剔除,可以看到,(R1,C3) (R1,C1
9、)都是纳什均衡,但在这里是不可解的。 尽管许多博弈中重复剔除的占优均衡是一个合理的预测,但并不总是如此,尤其是大概支付某些极端值的时候。,参与人B,L,R,参与人A,U,D,U是A的最优选择,但是,只要有1/1000的概率B选R,A就会选D,尽管“重复剔除严格劣战略” 的过程建立在理性参与人不会选择严格劣战略这一合情近理的原则之上,它仍有两个缺陷:第一,每一步剔除都需要参与者间相互了解的更进一步假定,如果我们要把这一过程应用到任意多步,就需要假定“参与者是理性的 “共同知识”(common knowledge,是与信息有关的一个重要概念。共同知识指的是“所有参与人知道,所有参与人知道所有参与人
10、知道,所有参与人知道所有参与人知道所有参与人知道”的知识)。,局中人B,局中人A,左,中,上,中,右,下,第二,这一方法对博弈结果的预测经常是不精确的。例如,在下面的博弈中,就没有可以剔除的严格劣战略。,对于相当多的博弈,我们无法运用重复剔除劣战略的方法找出均衡解。 为了找出这些博弈的均衡解,需要引入纳什均衡。,第四节 纳什均衡(Nash equilibrium)设想在博弈论预测的博弈结果中,为使该预测是正确的,局中人自愿选择的战略必须是理论给他推导出的战略。这样,每个局中人要选择的战略必须是针对其他参与者选择战略的最优战略。这种理论推测结果可以叫做“战略稳定”或“自动实施”的,因为没有参与人
11、愿意独自离弃他所选定的战略,我们把这一状态称为纳什均衡。,通俗地说,纳什均衡的含义就是:给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你的最好的策略。即双方在给定的策略下不愿意调整自己的策略。,假设n个参与人在博弈之前达成一个协议,规定每一个参与人选择一个特定的战略,另 代表这个协议,在没有外在强制力的情况下,如果没有任何人有积极性破坏这个协议,则这个协议是自动实施的。这个协议就构成了一个纳什均衡。,例:,C2,R1,R2,C1,C3,R3,参与人B,参与人A,(R3,C3)是纳什均衡例:用划线法寻找下列纳什均衡C1 C2 C3,R1,R2,R3,剔除顺序:R3、C3、C2、R
12、2,战略组合(R1,C1) 剔除顺序:C2、R2、C1、R3,战略组合(R1,C3)所以,使用严格劣战略剔除,可以看到,(R1,C3) (R1,C1)都是纳什均衡,但在这里是不可解的。,纳什均衡与占优战略均衡及重复剔除的占优均衡: (1)每一个占优战略均衡及重复剔除的占优均衡一定是纳什均衡,但并非每一个纳什均衡都是占优战略均衡或重复剔除的占优均衡;(2)纳什均衡一定是在重复剔除严格劣战略过程中没有被剔除掉的战略组合,但没有被剔除掉的组合不一定是纳什均衡,除非它是唯一的(不适用于严格弱劣战略的情况),局中人B,局中人A,左,中,上,中,右,下,在右边的博弈中,,对于A选择“上”时,B的最优战略为
13、“左”;,对于A选择“中”时,B的最优战略为“中”;,对于A选择“下”时,B的最优战略为“右”;,对于B选择“左”时,A的最优战略为“中”;,对于B选择“中”时,A的最优战略为“上”;,对于B选择“右”时,A的最优战略为“下”;,(下,右)满足纳市均衡的条件。,(坦白,坦白)是重复剔除严格劣战略均衡。,(坦白,坦白)是纳什均衡。,纳什均衡和重复剔除严格劣战略均衡的关系:如果用重复剔除严格劣战略把除战略组合 外所有的战略组合都剔除掉,则该所存战略组合就是此博弈惟一的纳什均衡。,由于重复剔除严格劣战略并不一定会只剩下惟一的战略组合,作为解的概念,纳什均衡比重复剔除严格劣战略更强。,下面的例子表明一
14、个博弈可以有多个纳什均衡。,性别博弈,(歌剧,歌剧)和(足球,足球)都是纳什均衡。,“斗鸡博弈”也有多个纳什均衡。,退,B,A,进,退,进,纳什均衡:A进,B退;A退,B进,五、几个命题,占优均衡 DSE,重复剔除占优均衡 IEDE,纯战略纳什均衡 PNE,1、 古诺的双头垄断模型,六、应用举例,假定:双头垄断,非勾结,产量竞争; 同质产品,生产的边际成本为0; 市场需求为线性需求曲线:P = a b Q = a b (q1 + q2 ) ;决策:假定对方不改变产量决策,追求利润最大化。,化为标准形式:参与人:厂商1、厂商2,收益:企业的收益就是其利润额,这样在一般的两个参与者标准式博弈中,参
15、与者1的收益分别为:,每个厂商要选择的战略必须是针对其他参与者选择战略的最优战略,因而两个厂商各自的反应函数就是其最优反应。,两个厂商的反应函数:,根据纳什均衡的定义,博弈的均衡解(q*1, q*2 )必须同时满足两个反应函数:,2、 公地的悲剧有n户村民的村庄,每年在村庄公共牧场上放牧羊只。以gi表示第i户村民放牧的羊数,全村牧羊总数G = g1+ g2+ gn。假定购买和照看每只羊的成本为c,c不随意户村民拥有的羊的数目而变化。当草地上羊的总数为G时,一户村民养一只羊的价值为v(G)。由于一只羊要生存,至少需要一定数量的青草,草地可以放牧的羊的总数有一个上限Gmax:当G Gmax时, v
16、(G)0,而当G Gmax时, v(G)=0。此外,假定在最初,由于有足够的放牧空间,增加一只羊不会对已经放养的羊产生太大影响,而随着羊的增加,所有羊只的价值将受到影响越来越大,到当G = Gmax时,每只羊的价值为0,即: G Gmax时, v(G) 0, v”(G) 0,如下图所示:,Gmax,G,v(G),O,这里假定羊是连续可分的,每年初,各户村民决定养殖羊的数目gi。在此博弈中,参与人为n户村民,每户村民的战略就是其决定养殖羊的数目gi,战略空间为0,),而收益为:,如果(g*1 ,g*n)为纳什均衡,则对于村民i,当其他村民选择战略(g*1 , g*i-1 , g*i+1 ,g*n
17、)时,其最优战略应是使其收益最大的战略:,第一项为每户村民每头羊的边际收益,第二、三项为对村民而言每增加一头羊的边际成本。,从村民的反应函数可看出,尽管每户村民在决定增加饲养量时考虑了对现有羊的价值的负效应,但他考虑的只是对自己羊的影响,而并不是对所有羊的影响。因此,最优点上个人边际成本小于社会边际成本,纳什均衡的总饲养量大于社会最优的饲养量。从整个村庄的最优选择考虑,最优的总饲养数G*优以下最优化问题解出:,与纳什均衡结果相比较:,,即公共资源被过渡使用了。,公共地的悲剧证明:如果一种资源没有排他性的所有权,就会导致资源的过度使用。公海捕鱼 小煤窑的过度发展,五 混合战略纳什均衡石头 布 剪
18、刀,猜硬币,布,剪刀,石头,社会福利博弈警察与小偷,性别博弈,(歌剧,歌剧)和(足球,足球)都是纳什均衡。,“斗鸡博弈”,退,B,A,进,退,进,纳什均衡:A进,B退;A退,B进,上述博弈的特征是:在这类博弈中,都不存在纯纳什均衡。 参与人的支付取决于其他参与人的战略;以某种概率分布随机地选择不同的行动 每个参与人都想猜透对方的战略,而每个参与人又不愿意让对方猜透自己的战略。这种博弈的类型是什么?如何找到均衡?,战略:参与人在给定信息集的情况下选择行动的规则,它规定参与人在什么情况下选择什么行动,是参与人的“相机行动方案”。纯战略:如果一个战略规定参与人在每一个给定的信息情况下只选择一种特定的
19、行动,该战略为纯战略。混合战略:如果一个战略规定参与人在给定信息情况下以某种概率分布随机地选择不同的行动,则该战略为混合战略。,纯战略可以理解为混合战略的特例,即在诸多战略中,选该纯战略si的概率为1,选其他纯战略的概率为0。如何寻找混合战略纳什均衡? 支付最大化法 支付等值法 由于混合战略伴随的是支付的不确定性,因此参与人关心的是其期望效用。 最优混合战略:是指使期望效用函数最大的混合战略(给定对方的混合战略) 在两人博弈里,混合战略纳什均衡是两个参与人的最优混合战略的组合。,支付最大化法:社会福利博弈,流浪,流浪汉,政府,救济,不救济,寻找工作,即:流浪汉以0.2的概率选择寻找工作,0.8
20、的概率选择游荡,同样,可以根据流浪汉的期望效用函数找到政府的最优混合战略。?,支付等值法流浪汉寻找工作 流浪救济 政府不救济,设:政府救济的概率:1/2 ;不救济的概率:1/2。 流浪汉:寻找工作的概率:0. 2;流浪的概率:0.8 每个参与人的战略都是给定对方混合战略时的最优战略,假定最优混合战略存在,给定流浪汉选择混合战略(r,1- r),政府选择纯战略救济的期望效用为:3r+(-1)(1-r)=4r-1 选择纯战略不救济的效用为:-1r+0(1-r)=-r 如果一个混合战略(而不是纯战略)是政府的最优选择,一定意味着政府在救济与不救济之间是无差异的: 4r-1=-r r=0.2,对 的解
21、释: 如果流浪汉找工作的概率小于0.2, 则政府选择不救济,如果大于0.2,政府选择救济 ,只有当概率等于0.2时,政府才会选择混合战略或任何纯战略.对 *= 0.5的解释 如果政府救济的概率大于0.5,流浪汉的最优选择是流浪,如果政府救济的概率小于0.5,流浪汉的最优选择是寻找工作。,混合战略纳什均衡的含义: 纳什均衡要求每个参与人的混合战略是给定对方的混合战略下的最优选择。因此在社会福利博弈中, , * =0.5是唯一的混合战略纳什均衡。从反面来说,如果政府认为流浪汉选择寻找工作的概率严格小于0.2,那么政府的唯一最优选择是纯战略:不救济; 如果政府以1的概率选择不救济,流浪汉的最优选择是
22、寻找工作,这又将导致政府选择救济的战略,流浪汉则选择游荡。如此等等。,六 纳什均衡存在性及相关讨论,不同均衡概念的关系,占优均衡 DSE,重复剔除占优均衡 IEDE,纯战略纳什均衡 PNE,纳什均衡存在性定理:每一个有限博弈至少存在一个纳什均衡(纯战略的或混合战略的)。一个博弈可能有多个均衡: 两个人分蛋糕; 性别战中的博弈; 纳什均衡的多重性:博弈论并没有一个一般的理论证明纳什均衡结果一定能出现,如何保证均衡出现: 1、“聚点”均衡:参与人可以使用某些被抽象掉的信息达到一个“聚点均衡”。 两个人分蛋糕; 性别战中的博弈; 两人同时给对方打电话 ,2、廉价磋商-“协调博弈” 尽管无法保证磋商会达成一个协议,即使达成协议也不一定会被遵守,但在一些博弈中,事前磋商确实可以使某些均衡实际上出现。,3、学习过程假定博弈重复多次,即使参与人最初难以协调行动,在博弈若干次后,某种特定的协调模式可能会形成,特别地,假定参与人每一轮根据其对手以前的“平均”战略来选择自己的最优战略,博弈可能收敛于一个纳什均衡。,