收藏 分享(赏)

第三章_完全且完美信息动态博弈.ppt

上传人:11xg27ws 文档编号:5829976 上传时间:2019-03-19 格式:PPT 页数:74 大小:546KB
下载 相关 举报
第三章_完全且完美信息动态博弈.ppt_第1页
第1页 / 共74页
第三章_完全且完美信息动态博弈.ppt_第2页
第2页 / 共74页
第三章_完全且完美信息动态博弈.ppt_第3页
第3页 / 共74页
第三章_完全且完美信息动态博弈.ppt_第4页
第4页 / 共74页
第三章_完全且完美信息动态博弈.ppt_第5页
第5页 / 共74页
点击查看更多>>
资源描述

1、第三章 完全且完美信息动态博弈,完全且完美信息动态博弈概述 子博弈完美均衡和逆推归纳法 动态博弈中的可信性问题 动态博弈分析的问题及扩展,第一节 完全且完美信息动态博弈概述,一、完全且完美信息动态博弈 动态博弈(序贯博弈、多阶段博弈):行动有先后顺序,有先行动者和后行动者 完全信息:对博弈的得益是共同知识 完美信息:对博弈的过程是共同知识 所有的人都能够观察之前所发生的事情,知道目前到了哪一步 下象棋?拳击?,行动有先后顺序,不同的参与人在不同时点行动,先行动者的选择影响后行动者的选择空间,后行动者可以观察到先行动者做了什么选择。 因此,为了做出最优的行动选择,每个参与人都必须这样思考问题:

2、如果我如此选择,对方将如何应对?如果我是他,我将会如何行动?给定他的应对,什么是我的最优选择?,二、动态博弈的扩展式表述:博弈树 动态博弈的行动有先后顺序,因此我们从一个起点开始进行博弈,首先由一个人首先行动,之后形成如树状的结构组成的博弈分析图形,博弈树(game tree),A,B,B,进入,不进入,进入,不进入,进入,不进入,(-1,-1),(1, 0),(0, 1),(0, 0),博弈树的一些要素: 结(Node):博弈中某一参与人(包括自然)采取行动的时点,或者博弈结束的时点。 结X 的后续结(successor):已经到达结X 后才有可能在随后的博弈中到达的结。 结X 的前续结(p

3、redeccessor):是指可能到达结X 之前必须到达的结。 初点结(starting node):不存在前继结的结。初点结通常用空心点表示。表示在此点之前没有“历史”。 终点结(end node):不存在后续结的结。 枝(branch),某一特定结上参与人行动集合中的一个特定行动。 路径(path),从起点到终点由结和枝构成的系列。,博弈树的构成:,节点nodes,决策节点(decision nodes),终点节(terminal nodes),树枝branches:每一条树枝代表一个行动,信息集information sets:参与人在决策节点选择行动时,需要有关信息;对此前博弈过程的一

4、个全部而明确的认识就构成一个信息集。,对完美信息动态博弈的博弈树来说,一个信息集只包含一个决策结,对不完美信息动态博弈,则一个信息集包含多个决策结。,B,C,D,E,F,G,甲,乙,甲,A,B,坦白,抵赖,B,B,A,A,坦白,抵赖,坦白,抵赖,(-8,-8),(0,-10),(-10,0),(-1,-1),坦白,抵赖,坦白,抵赖,坦白,抵赖,(-8,-8),(0,-10),(-10,0),(-1,-1),囚徒困境博弈的扩展式表述,囚徒困境博弈的扩展式表述,在完全信息假定下,博弈树满足: 第一、传递性:如果x在y之前,y在z之前,那么,x在z之前。 第二、反对称性:如果x在z之前,那么,z就不

5、可能在x之前。 第三、所有前列集必须全排序:如果x在z之前,y又在z之前,那么,或者x在y之前,或者y在x之前,两者不能并列而不分先后。 第四、完美回忆:所有局中人都知道自己以前的选择。,一个扩展式博弈由下列要素构成: 1、参与人集合 2、行动顺序 3、参与人行动时的可选行动方案及信息状况 4、支付函数,扩展型表示,对于一些比较复杂的博弈(比如存在许多选择或连续策略),如果用博弈树表达就很麻烦,有时也不可能。,三、行动与策略 在动态博弈中,各个博弈方的选择不仅有先后之分,而且一个博弈方的选择很可能不是只有一次,而是有几次,并且在不同阶段的多次行为之间有内在联系,是不能分割的整体。 因此在动态博

6、弈中,只研究某个博弈方某个阶段的行为,或者将各个阶段的行为割裂开来研究是没有意义的。,动态博弈中的策略:是一个完备的行动计划,在博弈开始之前就规定出每一个决策点上的选择,即使这个决策点实际上不会出现。 是针对各种情况所作相应选择的完整计划。 策略是“在什么情况下做什么”,所以通常以这样的形式出现:如果就。,企业A“在第一阶段仿冒,如果第二阶段B制止,第三阶段就不仿冒,否则第三阶段继续仿冒” 企业B“第一阶段A仿冒时第二阶段不制止,第三阶段A继续仿冒时第四阶段制止”,行动:“做什么” 策略是“在什么情况下做什么” 在前面讨论的静态博弈中,行动就等于策略 动态博弈的结果:双方(或多方)采用的策略组

7、合、实现的博弈路径和各博弈方的得益。,军事博弈,A,B,B,犯,不犯,犯人,不犯人,犯人,不犯人,(-3,-3),(2, -2),(-2, 2),(0, 0),第二节 子博弈完美均衡与逆推归纳法,一、动态博弈中的相机选择问题与可信性问题 动态博弈中博弈方的策略是预先设定的。这些策略在博弈过程中究竟哪个会实施,博弈方会从自身利益的角度出发,针对其他博弈方的策略选择来选择,我们称这种策略选择行为为动态博弈中的“相机选择”。 相机选择的存在使得博弈方的策略中所设定的各个阶段、各种情况下所采取的行为的可信性有了疑问。,以“开金矿博弈”为例对相机选择和可信性问题 进行一些分析。甲欲开采一价值4万元的金矿

8、,缺1万元资金, 乙刚好有1万元资金。设甲对乙承诺,只要乙将这1 万元资金借给自己,采到金子后与乙对半分成。,乙是否该将钱借给甲呢?,不借!,如果乙在甲违背承诺时采取打官司的措施收回本钱1万元,而甲被罚没全部收入,博弈为图所示。,有法律保障的开金矿博弈,可信的威胁!,法律保障不足的开金矿博弈,如下图给出了法律保障不足情况下的开金矿博弈。,不可信的威胁!,纳什均衡在动态博弈分析中的问题,我们通过开金矿博弈的几个不同版本,说明了动态博弈问题的相机选择引出的可信性问题,以及可信性在动态博弈分析中的关键意义。 可信性问题对纳什均衡在动态博弈分析中的有效性提出了质疑。,根据纳什均衡的定义不难判断,由乙的

9、策略 “第一阶段借,当甲第二阶段选择不分时,第 三阶段选择打”,甲的策略“第二阶段无条件 分”,构成的策略组合是一个纳什均衡。因为给 定对方的策略,双方的策略都是符合自己最大利益 的最佳策略,单独偏离对自己都是不利的。在双方上述策略下,乙在第三阶段的“打”并 不需要真正实施,但它是保证第二阶段甲会分的 关键,乙的策略中必须包含这个选择。,既然双方上述策略构成一个纳什均衡,它应该是有稳定性的,但事实上乙不会选“借”。为什么会出现这种矛盾呢?主要在于 “打”是不可信的。 纳什均衡在动态博弈可能缺乏稳定性的根源在于它不能排除策略中所包含的不可信的行为设定,不能解决动态博弈相机选择引起的可信性问题。

10、美国普林斯顿大学古尔教授提出一个例子: 两兄弟为玩具吵架,哥哥老是抢弟弟的玩具,父亲宣布政策:好好去玩,不要吵我,不管你们谁向我告状我都把你们两个关起来,关起来比没有玩具更可怕。现在,哥哥又把弟弟的玩具抢了,弟弟说:快把玩具还我不然就去告你。哥哥想,你真要告诉爸爸我是要倒霉的,可是你不告状不过没有玩具玩,而告了状却要被关禁闭,告状会使你的境遇变得更坏,所以你不会告状,因此哥哥对弟弟的警告置之不理。,动态博弈的有效分析概念,除了要符合纳什均衡的基本要求以外,还必须满足另一个关键的要求,那就是它(或者它们)必须能够排除博弈方策略中不可信的行为设定,也就是各种不可信的威胁和承诺。 只有满足这样要求的

11、均衡概念在动态博弈分析中才有真正的稳定性,才能对动态博弈作出有效的分析和预测。,二、子博弈 定义:由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成的,有初始信息集和进行博弈所需要的全部信息,能够自成一个博弈的原博弈的一部分,称为原动态博弈的一个“子博弈”。 子博弈就是从一个完美信息的单结向后一直到终点结及其得益所构成的博弈。,A,B,C,D,E,F,G,I,K,L,M,三、子博弈完美纳什均衡,由于纳什均衡无法排除动态博弈中的不可信行为,我们需要发展新的均衡概念,这便是子博弈完美均衡。 如果在一个完美信息的动态博弈中,各博弈方的策略构成的一个策略组合,满足在整个动态博弈及它的所有子博弈中

12、都构成纳什均衡,那么这个策略组合称为该动态博弈的一个“子博弈完美纳什均衡”。 子博弈完美纳什均衡去除了不可信的行为,四、逆推归纳法,在完全且完美信息动态博弈中,后行为的参与人能观察到先行为参与人的行动结果,并据此作出自己的合理选择。 而先行为的参与人虽然无法观测到后行为参与人的行动及其结果,但他在选择自己的行动时却会把自己行为对后行为参与人的选择所产生的影响考虑在内,即“如果我选,他会;如果我选,他又会”。 因此分析动态博弈时,后续阶段的博弈即子博弈是必须要给与关注的,这样才能确定自己的最优策略。,逆推归纳法 从动态博弈的最后一个子博弈开始分析,逐步向前倒推以求解动态博弈;是求解动态博弈的一般

13、方法。 在完美信息博弈中,子博弈精炼纳什均衡正是后退归纳解。因此,当后退归纳解惟一,则存在着惟一的子博弈精炼纳什均衡。,举例,1,2,1,(2,0),(5,0),(4,2),(1,1),U,D,R,L,U,D,逆向归纳法就是从动态博弈的最后一个阶段或最后一个子博弈开始,逐步向前倒推,以求解动态博弈的方法。1U D2 (2,0) L R1(1,2) U D(3,0) (1,3),库恩(Kuhn)定理:每一个具有有限个节的完美信息博弈有后退归纳解。如果对每一个局中人不存在相同的两个支付,那么存在惟一的后退归纳解。 该结论的一种特殊情况于1913年由策墨罗提出,他证明了象棋游戏必定有一个赢策略。这个

14、论证说明了1996年2月在费城IBM计算机(深蓝)可以在六局对抗中很好地对付世界冠军卡斯帕罗夫的原因。凭借无情的力量,计算机可以比任何人更好地做后退归纳。但计算机也不能完美的做后退归纳,因为问题太大了,在象棋游戏中有太多的枝。但是,总有一天它可以做到。于是世界冠军将是一台计算机!,1,2,2,1,L R,A B C D,E F,(2,0) (1,1) (0,1/2),(3,1) (2,2),h1,h1,h2,h2,夺宝游戏:,火柴增加:6、7、8会是一个什么样的结果?,6根:1?2? 7根:1 8根:2 一直可以延伸下去,是有规律可循的 先(5)、后、先、先、后、先、先、后、先、先、后,海盗博

15、弈:5个海盗抢到了100颗宝石,每一颗都一样的大小和价值连城。他们决定这么分:1.抽签决定自己的号码(1,2,3,4,5)2.首先,由1号提出分配方案,然后大家5人进行表决,当且仅当超过半数的人同意时,按照他的提案进行分配,否则将被扔进大海喂鲨鱼。3.如果1号死后,再由2号提出分配方案,然后大家4人进行表决,当且仅当超过半数的人同意时,按照他的提案进行分配,否则将被扔入大海喂鲨鱼。4.以次类推 条件:每个海盗都是很聪明的人,都能很理智的判断得失,从而做出选择 问题:第一个海盗提出怎样的分配方案才能够使自己的收益最大化,逆推归纳法分金币,逆推过程:1 2 3 4 5 0 100 99 1 097

16、 0 2 197 0 1 0 2结果: (97,0,1,0,2),逆推归纳法分金币:只需半数同意即可,逆推过程:1 2 3 4 5 100 0 99 0 199 0 1 098 0 1 0 1结果: (98,0,1,0,1),逆推归纳法分金币:只需半数同意即可,海盗人数增加为6个? 逆推过程:1 2 3 4 5 6 100 0 99 0 199 0 1 098 0 1 0 198 0 1 0 1 0结果: (98,0,1,0,1,0),女,足球,足球,芭蕾,芭蕾,足球,动态博弈中的先后优势问题:动态情侣博弈,男,女,芭蕾,(2,1),(0,0),(0,0),(1,2),先动优势与后动优势,在动

17、态博弈中,行动总有先后顺序。有些博弈具有先动优势(first-mover advantage),但有些博弈具有后动优势(second-mover advantage). 先下手为强 静观其变:谁先动手打人? 开会发言? 在不完全信息下,顺序是重要的。 但有些博弈既没有先动优势,也没有后动优势,如抓阄。,延伸:博弈的智慧动态博弈中的嵌入博弈,一个博弈属于另外一个博弈的一部分 因此在博弈的时候要全局考虑,而不是仅仅考虑博弈的一个树枝或子博弈 这样或许能够得到与之前不一样的选择,高官厚禄,续用,贬官、杀害,弃用,完全胜利,大将,皇帝,小胜利,(5,-10),(-5,6),(3,3),(0,-8),朱

18、元璋大清洗:大将、丞相、户部侍郎、监察御史、公侯,为什么不斩尽杀绝?,给对手活路,也是给自己活路,韩信:从项羽改投刘邦,战争胜利:齐王称号取消、封为楚王,后贬为淮阴侯,最后被吕后处死 “狡兔死,走狗烹。禽鸟尽,良弓藏。敌国灭,谋臣亡” 苏联斯大林的大清洗:所有副国防委员、所有军区司令、五分之三的红军将领、80名最高军委会中的75名 太平本是将军定,不许将军见太平 宋朝开国宰相赵普(契丹)、明朝的许达 警察和小偷 自助餐和食客 甚至包括动物 诸葛亮放曹操,第三节 动态博弈的可信性问题,我们可以通过威胁、承诺或者报复等使得我们的行为变成可信的 一、空洞威胁 开金矿博弈中,打官司是一个空洞的威胁,其

19、不可信 这样的例子很多:,默认婚事,断绝关系,私奔,文君MM,文君他爹,不私奔,(1,0),(-1,-2),(-1,0),断绝关系不是一个可信的威胁,卓文君同学私奔案,默认,打击,进入,进入者,在位者,不进入,(50,50),(-10,30),(0,100),市场进入中的威胁,有的企业,也许会拼死一搏,不可置信威胁与可置信威胁,管教孩子为什么困难? 家族企业为什么难以实行制度化管理? 寝室卫生的威胁策略 厂商威胁的可信性:投资?签约?公告?,二、承诺 承诺行为可能使得不可信的行为变成可信的行为。 承诺行动是局中人通过减少自己在博弈中的可选行动来迫使对手选择自己所希望的行动。 其中的道理在于:既

20、然对方的最优反应行动依赖于我的行动,那么限制我自己的某些行动实际上也就限制了对方采取某些行动。 承诺意味着限制自己的自由:选择少反而对自己好 如果某些承诺行动只是增加了选择某些行动的成本,而不是使该行动完全不可能被选取,这被称为不完全承诺。,承诺举例,项羽的“破釜沉舟” :限制自己的选择 交换人质、通婚 订金、抵押物、违约金做为对交易的承诺; 固定资产投资可以作为承诺; 产权(财富)的承诺作用:公司资本制度,婚恋中的承诺行为:置信与非置信,一位小伙子对一位姑娘写信说:“我爱你爱的如此之深,以至愿为你赴汤蹈火,献出我的一切;我是那么强烈的想见到你,任何艰难险阻也挡不住我的脚步”,“如果本周六不下

21、雨,我一定来找你!” 恋爱与婚姻中的承诺行为 婚姻中的承诺:彩礼、昂贵的婚礼可以理解为一种对婚姻的承诺,作为承诺的法律,法律改变了选择的空间或选择成本,所以可以起到承诺的作用; 合同的承诺作用(违约的成本增加,使得遵守合同更可能是事后最优的选择); 刑法:为什么不能商量? 台湾问题:立法还是政府随机应变? “法治”(rule of law)是政府的承诺,举例:如果1承诺不选择U,1,2,1,(2,0),(5,0),(4,2),(1,1),U,D,R,L,U,D,画家和政府的苦恼,名画的价值取决于数量,画家常为无法承诺而苦恼:谁相信他不会再画呢?这可能是为什么死了画家的画最值钱。 政府也有类似的

22、问题。政府经常缺乏承诺:给定投资者进入的情况下,多征税是最优的;但投资者预期到这一点,将不愿意进入。 中国许多地方政府有严重的机会主义行为。 “坦白从宽,抗拒从严”面临的问题也如此。 夫妻中婚前的追求方也是如此,限制自己有可能获得更多的好处,拒绝更多的信息:挂电话 面对绑匪拒绝谈判:汉武帝 让对方知道信息而自己装作不知道:军事演习、公司老板 交出控制权:对不起我没有权力(加薪、打折、成绩),第四节 动态博弈分析的问题和讨论,一、逆推归纳法的问题 1、逆推归纳法的问题 A. 逆推归纳法只能对博弈结构(次序、规则和得益)都被明确设定,且各博弈方相互了解的博弈问题进行分析。 逆推归纳法是从最后阶段开

23、始对每种可能路径进行比较,因此比较判断的路径数量不能太大。或者说只能是简单的动态博弈。,B. 另外,由于逆推归纳法是通过逐个阶段的唯一 最优选择寻找均衡路径的方法,因此当某个博弈方 在某个阶段遇到两种无差异的行为,就无法确定唯 一的最优路径,逆推归纳法程序会在这里中断。 C. 逆推归纳法更大的问题是对博弈方的理性要求 太高。不允许博弈方犯任何错误,而且要求所有博 弈方相互了解和信任对方的理性,对理性有相同的 理解,即有“理性的共同知识”。,2、对理性的要求,分钱博弈:两人之间分配100元钱,其中一个人提出方案,另一个人可以接受,也可以拒绝;如果接受,每人得到方案规定的份额;如果拒绝,没有人得到

24、任何东西。 什么是这个博弈的均衡路径? 实验结果:,偏离均衡路径时应该怎么选择?,对于理性的博弈方来说,如果其他博弈方偏离了子博弈完美纳什均衡 路径时,应该怎样进行后面的博弈呢。,用逆推归纳法很容易找出这个博弈的子博弈完美纳什均衡策略组合和相应的博弈路径,是“博弈方1在第一阶段选择L,第三阶段选择T;博弈方2在第二阶段选择N”,相应的博弈路径是博弈方1第一阶段选择L,博弈结束。,如果博弈方1选择了R,2怎么办?此时博弈方2必须确定的是博弈方1错误的性质,究竟其只是一种偶然错误,还是认为下一阶段会继续犯错误。 此外,在有些博弈问题中,还需要考虑其他博弈方的“错误”究竟是不是含有某种深意,是不是故

25、意犯的错误等。很显然,对于“犯错误”行为的判断不同,有效的对策就不同,对犯错误的性质的判断,正是解决犯错误引出问题的根本基础。,二、颤抖手均衡和顺推归纳法,面对博弈方可能发生错误的两种分析思想 (一)颤抖手均衡 个颤抖手均衡的基本思想是,在任何博弈中,每一个参与人都有可能犯错误,一个策略组合只有当它在允许所有人都可能犯错误时仍然是每一个参与人的最优策略组合时才是均衡。,扩展型动态博弈的颤抖手均衡,在这个博弈中有两条子博弈完美纳什均衡的路径,一条是博弈方1在第一阶段选择L结束博弈,另一条是RNTV 。但第二条不是颤抖手均衡路径,因为只要博弈方1考虑到博弈方2在第二阶段有任何一点偏离N的可能性,第

26、一阶段就不可能坚持R策略,因此,RNTV对应的子博弈完美纳什均衡是不稳定的。,(二)顺推归纳法,2,(2,2),这个博弈第一阶段是博弈方1的选择阶段,如果他选择R则博弈结束,双方各得2;如果他选择D,则双方进行第二阶段的静态博弈。这个静态博弈有三个纳什均衡,即纯策略纳什均衡(s,w)和(w,s),以及双方都以3/4和1/4的概率随机选择s和w的混合策略纳什均衡。,如果1选择了D,那么我们认为他很可能是希望下一步选W,而让2选择S,从而自己获得3的利益。这就是从第一步开第二步的选择,这就是顺推归纳法。,三、蜈蚣博弈问题,前面讨论的主要问题是现实中决策者理性的局限 对逆推归纳法和子博弈完美纳什均衡

27、分析的影响,似 乎隐含了如果决策者满足完全理性假设,就一定可以 通过逆推归纳法和子博弈完美纳什均衡对博弈结果进 行预测,如果进一步运用颤抖手均衡和顺推归纳法就 可以得出更精确的预测。但事实并非如此,下面我们 用蜈蚣博弈问题加以说明。,常见的“蜈蚣博弈” 系由1和2两个博弈方轮流选择的多阶段动态博弈,共有198个阶段,所有得益数组中第一个数字是博弈方1的得益,第二个数字是博弈方2的得益。,蜈蚣博弈这是一个两博弈方之间完全且完美信息的动态博弈,适合用逆推归纳法进行分析。,2,1,1,R,(0,3),(2,2),r,R,(1,1),2,1,1,R,(100,100),(99,99),r,R,(98,

28、98),2,r,(98,101),(97,100),D,d,D,D,d,D,d,蜈蚣博弈问题分析 用逆推归纳法很容易得出博弈方1在第一阶段就会选择D,直接结束博弈,双方得益都是1。这也是本博弈的唯一的子博弈完美纳什均衡路径。 上述从个体理性出发的最优选择导致了与人们的直觉很不一致的极差结果,关键在哪里呢? 答案可以从博弈方1为什么会在第一次选择时选择R将主动权交给博弈方2这个问题的典型回答中找到,这种初步的合作对进一步的合作精神和互的信心有明显的加强作用,因此该博弈中一旦出现合作的良好开端,合作必定会出现并持续下去,从而进一步否定逆推归纳分析得出的结论。 但是,我们并不能期望这种合作一直持续到

29、最后一个阶段。因为随着结束阶段的临近,双方进一步合作的潜在利益越来越小,停止合作的可能性会越来越大,只要博弈方都是理性经济人,合作持续到最后一刻的可能性是不存在的,逆推归纳法的逻辑肯定会在某个时刻起作用。 当然,如果不增加进一步的假设或信息,逆推归纳法的逻辑究竟在什么时候起作用,也就是双方的合作究竟在什么时候停止,很难加以预测。,上述分析也可以这样推论:如果上述蜈蚣博弈的阶段数大大减少,譬如只有3个或者5个阶段,那么开始时合作的可能性就要小得多。因为选择合作的潜在利益减少了许多,而承担的初始风险却是同样的,逆推归纳法的逻辑随时可能起作用; 反过来,蜈蚣博弈的长度进一步加长,那么合作的可能性将比原来的蜈蚣博弈更大,或许平均来说合作的阶段数也会大大增加。,本章总结,概述:完全且完美信息动态博弈 博弈树、策略和行动、信息 子博弈、子博弈完美纳什均衡 逆推归纳法 动态博弈中的可信性问题 动态博弈分析的一些问题,B,C,D,A,F,M,甲,乙,甲,(2,3,2),(1,4,2),(1,2,4),(3,3,3),(1,2,4),(0,2,1),丙,甲,E,H,K,L,练 习,甲,(3,3),A,乙,甲,甲,乙,乙,B,A,A,A,A,A,B,B,B,B,B,(2,3),(5,4),(3,2),(4,5),(1,0),(2,2),

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报