1、博弈论(Game Theory),有个古老的村庄留传一个悠久的习俗,如果妻子发现丈夫对自己不忠,就会把他杀死。该村有100对夫妻,每个丈夫都对自己的妻子不忠,但他的妻子并不知道,虽然其他丈夫的妻子们各个知道,所以倒也相安无事。有一天,村里一个德高望重的老太太快要去世了,所有的妻子们都去看她,临死前,老太太说:“我知道,你们的丈夫中至少有一个丈夫对自己的妻子不忠。”老太太去世后,第一天,相安无事;第二天,相安无事;直到第100天,突然,每个妻子都把丈夫杀了。为什么会这样?,这是一个推理和行动的过程。如果她的丈夫不忠的话,她就杀死他;如果没有证据证明她的丈夫不忠的话,她便相信他,不杀死他。 如果村
2、里只有一个男人是不忠的话,在老太太作了宣布之后的第一天,这个男人的妻子在老太太宣布之后马上就能知道。因为,她会作这样一个推理:如果其他男人不忠的话,她应当事先知道,既然其他99个男人都没有不忠,并且至少有一个男人不忠,那么这个不忠的男人必定就是她的丈夫。因此,村里如果只有一个男人不忠的话,老太太宣布之后,当天这个男人就会被其妻子杀死。 如果村里有两个男人不忠,那么,这两个男人的妻子在老太太做了宣布的第一天都不会怀疑到自己的丈夫,因为这两个妻子的每一个知道另外一个女人的丈夫不忠。但是,当第一天过后她没有发现那个不忠诚的男人被杀死,那么她会想,必定有两个男人是不忠的,否则她知道的那个不忠的男人会被
3、他的妻子当天杀死的。既然有两个男人不忠,但这两个不忠的男人的妻子想,她只知道一个,那么另一个不忠的男人必定是她的丈夫!,这里,在老太太宣布“至少一个男人是不忠的”这样一个事实时,每个女人其实都知道这个事实(她们也知道村子里的规则),似乎是,老太太对这个事实的宣布并没有增加这些女人的知识关于村里男人不忠行为的知识。但为什么老太太的宣布使得村里的女人产生了对她们丈夫的屠杀行为呢?这是因为,老太太的宣布使得这个群体里的女人的知识结构发生了变化:“至少一个男人是不忠的”在老太太做宣布之前是每个女人的知识,宣布之后仍然是她们的知识,但它在老太太宣布之前不是公共知识,老太太的宣布使得它成为公共知识。 如何
4、理解这种变化?设想一下,假定共有3个女人A、B、C,那么在未宣布之前,A想:由于自己不知道自己的丈夫不忠,其他两个女人B、C也同样不知道,那么A想B不知道C是否知道“至少有一个男人是不忠的”。而当老太太宣布了“至少一个男人是不忠的”之后,“至少一个男人是不忠的”便成了A、B、C之间的公共知识。 在这个100人组成的小村里,老太太的宣布使得“至少一个男人是不忠的”成了公共知识。于是,推理与行动便开始了。这是大屠杀的原因!,第二章 完全信息静态博弈,一 博弈的策略式表述二 占优策略均衡三 重复剔除的占优均衡四 纳什均衡五 混合策略均衡六 纳什均衡存在性及相关讨论,完全信息静态博弈完全信息:每个参与
5、人对所有其他参与人的特征(包括策略空间、支付函数等)完全了解静态:所有参与人同时选择行动且只选择一次。同时:只要每个参与人在选择自己的行动时不知道其他参与人的选择,就是同时行动博弈分析的目的是预测均衡结果,所谓完全信息静态博弈指的是各博弈方同时决策,或者决策行动虽有先后,但后行动者不知道先行动者的具体行动是什么且各博弈方对博弈中各种策略组合情况下所有参与人相应的得益都完全了解的博弈。,两个小偷甲和乙联手作案,私入民宅被警方逮住但未获证据。警方将两人分别置于两间房间分开审讯,政策是若一人招供但另一人未招,则招者立即被释放,未招者判入狱10年;若二人都招则两人各判刑8年;若两人都 不招则未获证据但
6、因私入民宅 各拘留1年。,囚徒困境,囚徒A,囚徒 B,坦白,抵赖,坦白,抵赖,案例-囚徒困境,在博弈论中,一个博弈可以用两种不同的方式来表达: 一种是策略式表达:另一种是扩展式表达.策略式表达更适合于静态博弈,而扩展式表达更适合于讨论动态博弈。,一 、博弈的策略式表述,策略式表达又称为标准式表达,在这种表达中,所有参人同时选择自己的策略,所有参与人选择的策略一起决定每个参与人的得益。值得强调的是,这里参与人同时选择的是“策略”,而不是“行动”。在静态博弈中,于参与人只选择一次,所以策略就等同于行动了。而在动态博弈中,策略是参与人在各个阶段的行动的全面计划。,更为准确地讲,策略式表述给出:1、博
7、弈的参与人集合:i =(1,2,, n);2、每个参与人的策略空间:Si i1,2,3,n;3、每个参与人的得益函数:ui(s1, ,si,sn),i1,2,3, ,n。用GS1,Sn;u1, ,un代表策略式表述博弈。,博弈的得益矩阵表示,有限博弈1、参与人的个数是有限的;2、每个参与人可选的策略是有限的。两个人有限博弈的策略表述可以用矩阵形式表述:,下面看看如何用博弈的策略式来描述囚徒困境,一 、博弈的策略式表述,房地产开发项目-假设有A、B两家开发商市场需求:可能大,也可能小投入:1亿,案例,假定市场上有两栋楼出售:需求大时,每栋售价1.4亿,需求小时,售价7千万;如果市场上只有一栋楼需
8、求大时,可卖1.8亿需求小时,可卖1.1亿,下面看看如何用博弈的策略式来描述房地产开发博弈,归纳起来有8种可能:,需求大,你开发,他不开发;你利润8千万,他利润0。需求大,你不开发,他开发;你利润0,他利润8千万。需求大,你开发,他也开发;你和他利润各为4千万。需求大,你不开发,他也不开发;你和他利润各为0。需求小,你开发,他不开发;你利润1千万,他利润0。需求小,你不开发,他开发;你利润0,他利润1千万。需求小,你开发,他也开发;你和他的利润各为-3千万需求小,你不开发,他也不开发;你和他利润各为0。,不开发,开发商A,开发,不开发,开发,开发商B,需求大的情况,博弈的策略式表述,不开发,开
9、发商A,开发,不开发,开发,需求小的情况,开发商B,博弈的策略式表述,练习:市场进入,有两个销售同样产品的销售商A和B打算进入某一区域性市场。由于这个区域市场对产品的需求是有限的,当他们都同时进入该区域市场时,他们各自占有的市场规模都偏小,从而造成1个单位的亏损;但是,当只有一个销售商进入该区域性市场时,则获得1个单位的利润;当然,不进入市场时的利润为零。假如A和B同时进行决策或者他们在进行各自的决策时并不知道另一方的选择,,表3.1 市场进入的静态博弈,练习:智猪博弈,有两头非常聪明的猪,一大一小,共同生活在一个猪圈里。在猪圈的一端放有一个猪食槽,在另一端安装有一个按钮,它控制着猪食的供应量
10、,只要按一下,就会出现10个单位食物,但要付出2个单位的成本。每只猪都有按与不按两种选择。,两只猪一起去按,然后一起回槽边进食,由于大猪吃得快可吃下8个单位的食物,小猪只能吃到2个单位食物。若大猪去按,小猪在槽边等候,则大猪由于来回跑耽误时间只吃得6单位食物,小猪吃得4单位。若小猪去按,小猪只吃得1单位,大猪吃9单位两只猪都不去按,则什么也吃不到,等待,小猪,大猪,按,等待,按,4大于10大于-1,纳什均衡:大猪按,小猪等待各得四个单位(4,4)多劳者不多得,智猪博弈,性别战,芭蕾,女,男,足球,芭蕾,足球,纳什均衡: 足球,足球;芭蕾,芭蕾先动优势,斗鸡博弈(懦夫博弈),两个司机驾车相向行驶
11、,每个人可以在相撞前转向一边而避免相撞,但这将使其被称作“懦夫”,如果两人都向前,车毁人亡;若一人转向而另一人选择继续向前,则向前的司机将被称作“勇士”。,退,B,A,进,退,进,独木桥,纳什均衡:A进,B退;A退,B进,斗鸡博弈,村子里有两户富户,有两种可能:一家修,另一家就不修;一家不修,另一家就得修。冷战期间美苏抢占地盘:一方抢占一块地盘,另一方就占另一块。夫妻吵架,一方厉害,另一方就出去躲躲。注意:在混合策略纳什均衡条件下,也可能两败俱伤。,协调博弈,一般,用户,供应商,先进,一般,先进,第二章 完全信息静态信息博弈-纳什均衡,一 博弈的基本概念及策略表述二 占优策略均衡三 重复剔除的
12、占优均衡四 纳什均衡五 纳什均衡应用举例,二 占优策略均衡,占优策略(dominant strategy) : 一般来说,由于每个参与人的得益是博弈中所有参与人的策略的函数,因此每个参与人的最优策略选择依赖于所有其他参与人的策略选择。但在一些特殊的博弈中,一个参与人的最优策略可能可以不依赖于其他参与人的策略选择,就是说,不论其他参与人选择什么策略,他的最优策略是唯一的,这样的最优策略被称为“占优策略”。,如果一个博弈中,某个参与人有占 优策略,那么该参与人的其他可选择策略就被称为“劣策略”。在一个博弈里,如果所有参与人都有占优策略存在,那么占优策略均衡是可以预测到的唯一的均衡,因为没有一个理性
13、的参与人会选择劣策略。所以在囚徒困境博弈里,坦白,坦白是占优策略均衡。,二 占优策略均衡,注意:如果所有人都有(严格)占优策略存在,那么占优策略均衡就是可以预测的唯一均衡。占优策略只要求每个参与人是理性的,而不要求每个参与人知道其他参与人是理性的(也就是说,不要求理性是共同知识)。为什么?,二 占优策略均衡,案例-囚徒困境,囚徒A,囚徒 B,坦白,抵赖,坦白,抵赖,-8大于-100大于-1,-8大于-100大于-1,二 占优策略均衡,不开发,开发商A,开发,不开发,开发,不开发,开发商B,开发商A,开发,不开发,开发,开发商B,需求小的情况,需求大的情况,博弈的策略式表述,等待,小猪,大猪,按
14、,等待,按,智猪博弈,大猪有无严格占优策略?,下面参与者有占优策略吗?,性别战,芭蕾,女,男,足球,芭蕾,足球,斗鸡博弈,退,B,A,进,退,进,独木桥,协调博弈,一般,用户,供应商,先进,一般,先进,第二章 完全信息静态信息博弈,一 博弈的基本概念及策略表述二 占优策略均衡三 重复剔除的占优均衡四 纳什均衡五 纳什均衡应用举例,三 重复剔除的占优均衡,重复剔除严格劣策略:思路:首先找到某个参与人的劣策略(假定存在),把这个劣策略剔除掉,重新构造一个不包含已剔除策略的新的博弈,然后再剔除这个新的博弈中的某个参与人的劣策略,一直重复这个过程,直到只剩下唯一的策略组合为止。 这个唯一剩下的策略组合
15、就是这个博弈的均衡解,称为“重复剔除的占优均衡”。,三 重复剔除的占优均衡,注意: 与占优策略均衡中的占优策略和劣策略不同,这里的占优策略或劣策略可能只是相对于另一个特定策略而言。,三 重复剔除的占优均衡,等待,小猪,大猪,按,等待,按,案例-智猪博弈,“按”是大猪的占优策略,纳什均衡:大猪按,小猪等待,三 重复剔除的占优均衡,M,列先生,行先生,U,D,L,R,行:没有占优策略列:M严格优于R剔除 R,行:U优于D列:无占优策略剔除 D,M优于L,(U,M)是重复剔除的占优均衡,三 重复剔除的占优均衡,卑斯麦海之战卑斯麦海之战发生在1943年的南太平洋上,日本海军上将木村受命将日本陆军运抵新
16、几内亚,其间要穿越卑斯麦海。而美国上将肯尼欲对日军运输船进行轰炸,穿越卑斯麦海通往新几内亚的有两条航线,木村必须从中选一条,而肯尼则必须决定将其飞机派往何处去搜索日军,如果肯尼将他的飞机派到了错误的航线上,他虽可以召回他们,但可供轰炸的天数将减少。,木村,肯尼,北,南,北,南,三 重复剔除的占优均衡,练习:在下列策略式表达中,找出重复剔除的占优均衡,C2,R1,R2,C1,C3,R3,三 重复剔除的占优均衡,注意:1、重复剔除的占优均衡结果与劣策略的剔除顺序是否有关取决于剔除的是否是严格劣策略。2、重复剔除的占优均衡要求每个参与人是理性的,而且要求“理性”是参与人的共同知识。 即:所有参与人知
17、道所有参与是理性的,所有参与人知道所有参与人知道所有参与是理性的,三 重复剔除的占优均衡,C2,R1,R2,C1,C3,R3,剔除顺序:R3、C3、C2、R2,策略组合(R1,C1),故一般使用严格劣策略剔除,可以看到,(R1,C3) (R1,C1)都是纳什均衡,但在这里是不可解的。,剔除顺序:C2、R2、C1、R3,策略组合(R1,C3),举例:,房地产开发中需求小情况,不开发,开发商A,开发,不开发,开发,不开发,开发商B,开发商A,开发,不开发,开发,开发商B,需求小的情况,需求大的情况,博弈的策略式表述,斗鸡博弈,退,B,A,进,退,进,独木桥,纳什均衡:A进,B退;A退,B进,对于相
18、当多的博弈,我们无法运用重复剔除劣策略的方法找出均衡解。为了找出这些博弈的均衡解,需要引入纳什均衡。,第二章 完全信息静态信息博弈,一 博弈的基本概念及策略表述二 占优策略均衡三 重复剔除的占优均衡四 纳什均衡五 纳什均衡应用举例,四 纳什均衡,假设有n个人参与博弈,给定其他人策略的条件下,每个人选择自己的最优策略(个人最优可能依赖于也可能不依赖于其他人的策略),所有参与人的最优策略组成的一个组合就是纳什均衡。这种策略组合由所有参与人的最优策略组成,也就是说,给定别人策略的情况下,没有任何单个参与人有积极性选择其他策略,从而没任何人有积极性打破这种均衡。用句不太褒义的话来说,纳什均衡是一种“僵
19、局”:给定别人不动的情况下,没有人有兴趣动。,四 纳什均衡,通俗地说,纳什均衡的含义就是:给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你的最好的策略。即双方在给定的策略下不愿意调整自己的策略。,四 纳什均衡,寻找纳什均衡:划线法,C2,R1,R2,C1,C3,R3,参与人B,参与人A,(R3,C3)是纳什均衡,57,寻找纳什均衡:划线法,市场进入阻挠博弈,有一个垄断者已在市场上(称为在位者),另一个企业虎视耽耽想进入(称为进入者)。进入者有两个策略可以选择:(进入,不进入),在位者也有两个策略:(默许,斗争)。假定进入之前的垄断利润为300,进入之后寡头利润为100,进入成本
20、为10。最终结果会如何?,高成本,市场进入阻挠博弈,如果我们想用重复剔除弱劣策略的方法找到博弈的解,斗争是在位者的弱劣策略(50 0, 300 = 300),因而被剔除,(进入,默许)是唯一剩下的没有被剔除的策略组合,因而是重复剔除的占优均衡。纳什均衡(不进入,斗争)被剔除掉了。这个例子也说明,(弱)纳什均衡允许弱劣策略的存在。,61,寻找纳什均衡:箭头法,62,寻找纳什均衡:箭头法,63,寻找纳什均衡:箭头法,四 纳什均衡,美苏古巴导弹危机冷战期间美苏争霸最严重的一次危机。苏联:面临将导弹撤回国还是坚持部署在古巴的选择;美国:挑起战争还是容忍苏联的了挑衅行为。结果:苏联:将导弹从古巴撤回,做
21、了丢面子的“撤退的鸡”,美国:坚持自己的的策略,做了“不退的鸡”,但是象征性地从土耳其撤回了一些导弹,给苏联一点面子。,独木桥,四 纳什均衡,C2,R1,R2,C1,C3,R3,剔除顺序:R3、C3、C2、R2,策略组合(R1,C1),故一般使用严格劣策略剔除,可以看到,(R1,C3) (R1,C1)都是纳什均衡,但在这里是不可解的。,剔除顺序:C2、R2、C1、R3,策略组合(R1,C3),请用上述划线法寻找下列纳什均衡,练习:找出下列两队夫妻的纳什均衡,死了,恩爱夫妻,活着,死了,活着,死了,妻子,相互仇恨夫妻,活着,死了,活着,妻子,丈夫,丈夫,四 纳什均衡,纳什均衡与占优策略均衡及重复
22、剔除的占优均衡:(1)每一个占优策略均衡及重复剔除的占优均衡一定是纳什均衡,但并非每一个纳什均衡都是占优策略均衡或重复剔除的占优均衡;(2)纳什均衡一定是在重复剔除严格劣策略过程中没有被剔除掉的策略组合,但没有被剔除掉的组合不一定是纳什均衡,除非它是唯一的(不适用于严格弱劣策略的情况),C2,R1,R2,C1,C3,R3,剔除顺序:R3、C3、C2、R2,策略组合(R1,C1),故一般使用严格劣策略剔除,可以看到,(R1,C3) (R1,C1)都是纳什均衡,但在这里是不可解的。,剔除顺序:C2、R2、C1、R3,策略组合(R1,C3),四 纳什均衡,市场进入阻挠,斗争,在位者,进入者,进入,不
23、进入,默许,纳什均衡:进入,默许;不进入,斗争,四 纳什均衡,用重复剔除弱劣策略的方法找均衡,第二章 完全信息静态信息博弈-纳什均衡,一 博弈的基本概念及策略表述二 占优策略均衡三 重复剔除的占优均衡四 纳什均衡五 混合策略纳什均衡六 纳什均衡存在性及相关讨论,萨达姆能够藏身何处?,萨达姆在伊拉克当政已经近30年,据报道,多年来,萨达姆的手下在伊拉克全境给萨达姆修建了78个住处。 据说,萨达姆每晚睡觉前,他的护卫会为他选择至少6个住处,大多数是在巴格达和提克里特市。而萨达姆一般只是在睡觉前几分钟才决定到哪一个住处睡觉。萨达姆也从来不在一张床上连续睡两个晚上。在巴格达市和提克里特市之间还修建有专
24、门的地下通道。萨达姆可以不露面在两个城市之间穿行。特别是萨达姆知道美方一直在侦察他,因此采取了严密的通信保密措施来防止通信信号被窃听,使用的通信线路基本上也都是光纤通信网络。萨达姆还有好几个替身,连美国也经常搞不清露面的萨达姆是真的还是假的。在这种情况下,美方即使动用最先进的侦察设备也很难发现萨达姆的行踪。,另外,萨达姆经常住的几个住处中都建有地堡。这些地堡里有指挥部、诊所、军械库以及厨房等。地堡由极厚的钢筋混凝土建成,有些地堡甚至可以抵抗500磅炸弹的轰炸。例如,在巴格达就有两处特别为萨达姆修建的地堡,这两处地堡又被称为萨达姆的地下宫殿。两处地下宫殿位于巴格达城中心的共和国宫殿和7月14日桥
25、之间,其中一个地下宫殿在一个会议中心大楼的下面。两个地下宫殿的防护能力完全一样,都能承受2000吨TNT炸药的直接攻击,或者两公里外的原子弹爆炸。 1991年海湾战争时,美军曾向会议中心大楼下面的地下宫殿发射了三枚巡航导弹,会议中心大楼虽然被摧毁,但地下宫殿完好无损。,尽管常规炸弹很难摧毁萨达姆的地堡,但美军已经准备了专门用于摧毁地下掩体的5000磅级的GBU-28钻地炸弹。这种钻地炸弹能够穿透30米厚的土层或6米厚的钢筋水泥,具有穿甲、爆破和粉碎功能。另外,美国还可能对萨达姆的地地堡使用电磁脉冲炸弹。这种电磁脉冲炸弹由巡航导弹或无人驾驶飞机来投放,爆炸后能够向四面八方发出数公里长的强大电子波
26、,并在瞬间使通信手段和各种武器的电子控制系统陷入瘫痪。特别是这种电磁脉冲炸弹能够像微型核弹一样深入地下,从而破坏萨达姆的地下指挥中心与外界的联系。萨达姆能躲过这种威力巨大的钻地炸弹的袭击,我们将拭目以待。,五 混合策略纳什均衡,石头、剪子、布游戏老虎、杠子、鸡、虫子游戏足球赛中射门还是传球,五 混合策略纳什均衡,社会福利博弈(施善者悖论),流浪,流浪汉,政府,救济,不救济,寻找工作,没有一个策略组合构成纳什均衡,五 混合策略纳什均衡,反面,正面,反面,正面,猜谜游戏两个儿童各拿一枚硬币,若同时正面朝上或朝下,A给B 1分钱,若只有一面朝上,B给A 1分钱。,零和博弈博弈参与者有输有赢,但结果永
27、远是0。,没有一个策略组合构成纳什均衡,五 混合策略纳什均衡,警察与小偷,银行,酒馆,警察,小偷,2万元,1万元,东边,西边,警察与小偷的最优策略各是什么?,五 混合策略纳什均衡,上述博弈的特征是:在这类博弈中,都不存在纯纳什均衡。参与人的支付取决于其他参与人的策略;以某种概率分布随机地选择不同的行动每个参与人都想猜透对方的策略,而每个参与人又不愿意让对方猜透自己的策略。这种博弈的类型是什么?如何找到均衡?,五 混合策略纳什均衡,社会福利博弈,流浪,流浪汉,政府,救济,不救济,寻找工作,设:政府救济的概率:1/2 ;不救济的概率:1/2。流浪汉:寻找工作的期望效用:1/22+1/2 1=1.5
28、 流浪的期望效用: 1/23+1/2 0=1.5因此,流浪汉的任何一种策略都是都是对政府混合策略的最优反应,五 混合策略纳什均衡,社会福利博弈,流浪,流浪汉,政府,救济,不救济,寻找工作,设:政府救济的概率:1/2 ;不救济的概率:1/2。流浪汉:寻找工作的概率:0. 2;流浪的概率:0.8每个参与人的策略都是给定对方混合策略时的最优策略,西边,东边,西边,东边,五 混合策略纳什均衡,警察抽签决定去银行还是酒馆,2/3的机会去银行,1/3的机会去酒馆;同样,小偷也抽签决定去银行还是酒馆, 2/3的机会去酒馆, 1/3的机会去银行。,五 混合策略纳什均衡,反面,正面,反面,正面,猜谜游戏两个小孩
29、的最优策略是采取每个策略的可能性均为1/2;每个小孩各取策略的1/2是纳什均衡。,零和博弈,五 混合策略纳什均衡,策略:参与人在给定信息集的情况下选择行动的规则,它规定参与人在什么情况下选择什么行动,是参与人的“相机行动方案”。纯策略:如果一个策略规定参与人在每一个给定的信 息情况下只选择一种特定的行动,该策略为 纯策略。混合策略:如果一个策略规定参与人在给定信息情况 下以某种概率分布随机地选择不同的行动,则该策略为混合策略。,五 混合策略纳什均衡,混合策略:如果一个策略规定参与人在给定信息情况 下以某种概率分布随机地选择不同的行动, 则该策略为混合策略。,五 混合策略纳什均衡,纯策略可以理解
30、为混合策略的特例,即在诸多策略中,选该纯策略si的概率为1,选其他纯策略的概率为0。,等待,小猪,大猪,按,等待,按,反面,正面,反面,正面,五 混合策略纳什均衡,如何寻找混合策略纳什均衡?支付最大化法支付等值法由于混合策略伴随的是支付的不确定性,因此参与人关心的是其期望效用。最优混合策略:是指使期望效用函数最大的混合策略(给定对方的混合策略)在两人博弈里,混合策略纳什均衡是两个参与人的最优混合策略的组合。,支付最大化法,流浪,流浪汉,政府,救济,不救济,寻找工作,即:流浪汉以0.2的概率选择寻找工作,0.8的概率选择游荡,同样,可以根据流浪汉的期望效用函数找到政府的最优混合策略。?,五 混合
31、策略纳什均衡,社会福利博弈,流浪,流浪汉,政府,救济,不救济,寻找工作,设:政府救济的概率:1/2 ;不救济的概率:1/2。流浪汉:寻找工作的概率:0. 2;流浪的概率:0.8每个参与人的策略都是给定对方混合策略时的最优策略,支付等值法,假定最优混合策略存在,给定流浪汉选择混合策略(r,1- r),政府选择纯策略救济的期望效用为: 3r+(-1)(1-r)=4r-1选择纯策略不救济的效用为:-1r+0(1-r)=-r如果一个混合策略(而不是纯策略)是政府的最优选择,一定意味着政府在救济与不救济之间是无差异的。 4r-1=-r r=0.2,流浪,流浪汉,政府,救济,不救济,寻找工作,五 混合策略
32、纳什均衡,社会福利博弈,流浪,流浪汉,政府,救济,不救济,寻找工作,设:政府救济的概率:1/2 ;不救济的概率:1/2。流浪汉:寻找工作的概率:0. 2;流浪的概率:0.8每个参与人的策略都是给定对方混合策略时的最优策略,五 混合策略纳什均衡,对 的解释:如果流浪汉以找工作的概率小于0.2, 则政府选择不救济,如果大于0.2,政府选择救济 ,只有当概率等于0.2时,政府才会选择混合策略或任何纯策略.对 *= 0.5的解释如果政府救济的概率大于0.5,流浪汉的最优选择是流浪,如果政府救济的概率小于0.5,流浪汉的最优选择是寻找工作.,五 混合策略纳什均衡,混合策略纳什均衡的含义:纳什均衡要求每个
33、参与人的混合策略是给定对方的混合策略下的最优选择。因此在社会福利博弈中, , *=0.5是唯一的混合策略纳什均衡。从反面来说,如果政府认为流浪汉选择寻找工作的概率严格小于0.2,那么政府的唯一最优选择是纯策略:不救济;如果政府以1的概率选择不救济,流浪汉的最优选择是寻找工作,这又将导致政府选择救济的策略,流浪汉则选择游荡。如此等等。,五 混合策略纳什均衡,反面,正面,反面,正面,用上述方法:求该猜谜游戏的混合策略纳什均衡,五 混合策略纳什均衡,练习:模型化下述划拳博弈:两个老朋友在一起喝酒,每个人有四个纯策略:杠子、老虎、鸡和虫子,输赢规则是:杠子降鸡,鸡吃虫子,虫子降杠子,两人同时出令。如果
34、一个打败另一个,赢的效用为1,输的效用为-1,否则效用为0,写出这个博弈的支付矩阵,这个博弈有纯策略均衡吗?计算其混合策略纳什均衡。,斗鸡博弈,退,B,A,进,退,进,独木桥,第二章 完全信息静态信息博弈-纳什均衡,一 博弈的基本概念及策略表述二 占优策略均衡三 重复剔除的占优均衡四 纳什均衡五 混合策略纳什均衡六 纳什均衡存在性及相关讨论,六 纳什均衡存在性及相关讨论,不同均衡概念的关系,占优均衡DSE,重复剔除占优均衡IEDE,纯策略纳什均衡PNE,混合策略纳什均衡MNE,六 纳什均衡存在性及相关讨论,纳什均衡存在性定理:每一个有限博弈至少存在一个纳什均衡(纯策略的或混合策略的)。,六 纳
35、什均衡存在性及相关讨论,一个博弈可能有多个均衡:两个人分蛋糕;性别战中的博弈;纳什均衡的多重性:博弈论并没有一个一般的理论证明纳什均衡结果一定能出现,芭蕾,女,男,足球,芭蕾,足球,六 纳什均衡存在性及相关讨论,如何保证均衡出现:1、“聚点”均衡:参与人可以使用某些被抽象掉的信息达到一个“聚点均衡”。两个人分蛋糕;性别战中的博弈;两人同时给对方打电话,六 纳什均衡存在性及相关讨论,2、廉价磋商-“协调博弈”尽管无法保证磋商会达成一个协议,即使达成协议也不一定会被遵守,但在一些博弈中,事前磋商确实可以使某些均衡实际上出现。,R,B,A,U,D,L,R,B,A,U,D,L,聚点,六 纳什均衡存在性
36、及相关讨论,猎人博弈和帕累托优势:,打兔,猎人乙,猎人甲,猎鹿,打兔,猎鹿,有两个纳什均衡:(10,10)与(4,4);可以认为:(10,10)比(4,4)有帕累托优势,六 纳什均衡存在性及相关讨论,大流士阴谋推翻波斯王国的故事:当时,一群波斯贵族聚在一起决定推翻国王,其间有人提议休会,大流士此时站出来大声疾呼,说如果休会的话,就一定会有人去国王那里告密,因为如果别人不那么做的话,他自己就会去做,大流士说唯一的办法就是冲进皇宫,杀死国王。这个谋反的故事还提供了关于协调博弈的出路。在杀死国王之后,贵族们想从自己人中推选出一个人当国王,他们决定不自相残杀,而是在佛晓十分到山上去,谁的马先叫谁就当国
37、王。大流士的马夫在这场随机的安排中做了手脚,从而成为国王。,六 纳什均衡存在性及相关讨论,3、学习过程 假定博弈重复多次,即使参与人最初难以协调行动,在博弈若干次后,某种特定的协调模式可能会形成,特别地,假定参与人每一轮根据其对手以前的“平均”策略来选择自己的最优策略,博弈可能收敛于一个纳什均衡。,囚徒A,囚徒 B,坦白,抵赖,坦白,抵赖,案例-囚徒困境,几个博弈例子的再思考,类似的囚犯困境,排队,闯红灯,价格战,价格大战两个寡头企业选择产量公共产品的供给军备竞赛做广告围观时踮脚尖应试教育污染。贸易自由与壁垒,地方保护主义高尚与卑鄙,囚徒困境的几个事例:,高尚是高尚者的墓志铭卑鄙是卑鄙者的通行
38、证,环境污染战争与军备竞赛给猫拴铃铛(出头鸟)“我也是这么做的”只要人人都献出一点爱奖学金的分配(“减负”)高尚与卑鄙,个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。从“纳什均衡”引出“看不见的手” 的一个悖论:从利己目的出发,结果损人不利己。“纳什均衡”提出的悖论动摇了经济学的基石。从“纳什均衡”还可以悟出:合作是有利的“利己策略”,但它必须符合以下黄金律:按照你愿意别人对你的方式来对别人,但只有他们也按同样方式行事才行。也就是 “己所不欲,勿施于人”。,如何走出囚徒困境,报复与惩罚“人质”方案长期关系和重复博弈忠诚文化 “江湖义气”
39、是一种对同伴忠诚的文化同甘共苦、同生共死的忠诚观念,囚徒A,囚徒 B,坦白,抵赖,坦白,抵赖,案例-囚徒困境,报复与惩罚,等待,小猪,大猪,按,等待,按,智猪博弈,智猪博弈的例子,股市博弈 在股票市场上,大户是大猪,他们要进行技术分析,收集信息、预测股价走势,但大量散户就是小猪。 他们不会花成本去进行技术分析,而是跟着大户的投资策略进行股票买卖,即所谓“散户跟大户”的现象。,例子:为何股份公司中大股东才有投票权? 在股份公司中,大股东是大猪,他们要收集信息监督经理,因而拥有决定经理任免的投票权,而小股东是小猪,不会直接花精力去监督经理,因而没有投票权。,例:为什么中小企业不会花钱去开发新产品?
40、 在技术创新市场上,大企业是大猪,它们投入大量资金进行技术创新,开发新产品,而中小企业是小猪,不会进行大规模技术创新,而是等待大企业的新产品形成新的市场后生产 模仿大企业的新产品的产 品去销售。,例:为什么只有大企业才会花巨额金 钱打广告? 大企业是大猪,中小企 业是小猪。大企业投入大量 资金为产品打广告,中小企 业等大企业的广告为产品打开销路形成市场后才生产类似产品进行销售。,万燕VCD立邦乳胶漆TCL液晶电视策略,性别战,芭蕾,女,男,足球,芭蕾,足球,斗鸡博弈,退,B,A,进,退,进,独木桥,实例,俄罗斯轮盘赌洪赵二县人性硬,为争浇地敢拼命,油锅捞钱断输赢,分三分七也公平古巴导弹危机诸葛亮的空城计,协调博弈,一般,用户,供应商,先进,一般,先进,124,思考与讨论,当a,b,c,d,e,f,g,h之间满足什么条件时,上述博弈存在: (1)占优策略均衡;(2)重复剔出的占优均衡;(3)纯策略纳什均衡。,