1、第十章 博弈论,第一节 博弈论概述,一、经济学与博弈论,研究的对象经济资源的稀缺性选择与资源配置中心理论价格理论基本假设前提完全理性完全信息,主流经济学假设行为决策人是完全理性的,且具有与最优化相关的所有信息,并能正确地运用这些信息来指导自己的行理论动。在该假定下,经济学家们不顾现实世界的纷繁复杂,致力于对均衡和本质规律的研究。,完全理性与有限理性,人的完全理性意味着,人有足够的信息、知识和计算能力,来确保实现自己的效用最大化。因此,理性假定意味着理性人能够运用数学工具描述人的(最大化)行为。对完全理性人的理解他们有一个很好定义的偏好,并能够按照即定的偏好进行选择;他们的选择受到预算约束;他们
2、努力在约束条件下实现效用最大化。但事实上,现实中的人多数情况下处于有限理性状态,有限理性是指在处理信息、应付复杂情况和寻求理性目标中个人的能力是有限的。有限理性人是知识有限、信息有限的个人,在现实中也不是先知先觉、富有远见的理性人。他们不可能也不期望在复杂的环境中想得太远太多。他们不可能预测到将来发生的所有可能事件,并且针对它们做出详细的行动计划和分配方案。他们即使能够预测和做出计划的话,也没有一种人类语言能足够丰富和准确地描述它。,完全理性与有限理性,完全信息 意味着信息是对称的,充分的,完全信息的人有足够的信息实现自己最大化行为。但现实的市场并不完全,如买卖双方的人数并不足够的多,信息也是
3、不完备的。,有限的人数意味着人们之间的行为是有直接影响的,所以一个人在决策时必须考虑对方的反应,而别人的选择也会影响自己的选择 。,现实生活中信息并不总是完备的,这使得价格机制并不总是实现合作和解决冲突的最有效安排。,博弈论(Game Theory)又称为对策论或游戏论,是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题,即具有相互影响作用的理性行为。,博弈论所研究的典型问题是两个或两个以上的当事人在竞争条件下各自做出决策,使自己的一方得到尽可能有利的结果。,由于经济学和博弈论的研究模式是一样的,都强调个人理性,即追求给定条件下效用最大化,因此博弈论在经济学中得到了广泛的应用,
4、对寡头理论、信息经济学等方面的发展做出了重要贡献。,政策制订者的决策工具; 社会经济问题的理论分析工具,解释经济中许多低效率现象的根源,找出各种经济问题的制度性、环境性原因,揭示各种经济行为和政策的效率意义等。,严格的说,博弈论并不是经济学的一个分支,它是一种方法,用数学的知识来研究当理性人的决策相互影响时,他们是如何进行决策以获取最大收益的。其应用范围并不局限于经济学,还涉及到政治学、军事学、外交学甚至犯罪学等多个领域。,博弈论是在1944年由冯诺依曼和奥摩根斯坦恩发表的博弈论和经济行为引入经济学的。合作型博弈在20世纪50年代达到了巅峰期。 1950年和1951年纳什的两篇关于非合作博弈论
5、的重要论文,彻底改变了人们对竞争和市场的看法。他证明了非合作博弈及其均衡解,并证明了均衡解的存在性,即著名的纳什均衡。 1994年度的诺贝尔经济学奖授予三位从事对策论研究的经济学家:纳什、泽尔腾、海萨尼。在博弈论的演进过程中,以纳什、海萨尼、泽尔腾为代表的经济学家采用数学语言和公理性的方法来进行研究,成为博弈论的主流范式。,2005年诺贝尔经济学奖授予有以色列和美国双重国籍的罗伯特奥曼和美国人托马斯谢林,以表彰他们通过博弈理论的分析增强世人对合作与冲突的理解。谢林独辟蹊径,开创了非数学博弈理论这一新的领域。他认为,博弈模型不可能表述双方或多方之间相互影响,决策主体的期望和行为的决定因素与其说是
6、数学的,不如说是创造声誉、沿袭传统、建立自信、显示大度等经验。非数理博弈理论分析的就是这样一种状态下的社会和经济行为:行为者本身对其它人的反应也作为其他人的期望而影响其行为。他建构了一套概念框架来描述这种相互预期的困境,进行了接近现实观察的分析。,1、根据博弈方是否合作,合作博弈:博弈方能够达成具有约束力的协议。 强调集体理性,效率,公平。 非合作博弈:博弈方不能达成具有约束力的协议。 强调个人理性,结果可能是有效的,也可能是无效率的。现代经济学中谈到博弈论,一般指的是非合作博弈,二、博弈论的主要内容,2、根据行动的先后顺序: 静态博弈:是指参与人同时行动或不同时行动,但后行动者并不知道先行动
7、者采取了什么具体行动。 动态博弈:是指参与人行动有先后顺序,且后行动者能观察到先行动者所选择的行动。,3、根据参与人掌握的信息,完全信息博弈:每一个参与人对所有其他参与人(对手)的特征、战略空间及支付函数有准确的知识。不完全信息博弈:至少部分参与人不完全了解其他参与人的特征、战略空间及支付函数的情况,也称为“不对称信息博弈”,纳什均衡,子博弈精炼纳什均衡,贝叶斯纳什均衡,精炼贝叶斯纳什均衡,一个博弈的基本要素包括参与人或游戏者、行动、信息、战略、收益或支付、结果、均衡。 博弈分析的目的是使用博弈规则预测均衡,第二节 完全信息静态博弈,一、博弈的基本要素,参与人(players):指的是在博弈中
8、选择行动以最大化自己效用的决策主体(可能是个人,也可能是团体)。,行动(actions):指的是参与人的决策变量。,战略 (strategies ):参与人选择行动的规则,它告诉参与人在什么时候选择什么行动。,信息 (Information):指的是参与人在博弈中的知识,特别是有关其它参与人的特征和行动的知识。,支付函数 (players):指的是参与人从博弈中获得的效用水平,这是参与人真正关心的东西。 参与人在博弈中的目标就是选择自己的战略以最大化自己的支付函数。 博弈的一个基本特征是一个参与人的支付不仅取决于自己的战略选择,而且取决于所有其他参与人的战略选择;是战略组合的函数。它是所有参与
9、人战略的函数。,均衡:是所有参与人的最优战略或行动的组合。,可以用一个支付矩阵来描述和分析一个博弈。,支付矩阵,支付矩阵(Payoff Matrix,又称收益矩阵等)描述一个博弈结构。下面支付矩阵中,两个参与者A和厂商B各自可以选择两种策略,分别用“左右”和“上下”来标识;数字表示双方在不同策略选择组合下得到的支付,较大数字代表较大利益。如A和B分别选择上和左策略时,左上角方框“1,2”表示它们分别得到的收益;分别选择策略下和右时,分别得到右下角方框数字“1,0”代表的支付。,占优战略均衡是指参与人的最优战略不依赖于其他参与人的战略选择。不论其他参与人选择什么战略,他的最优战略是唯一的,这个最
10、优战略被称为占优战略。 在一个博弈中,如果所有参与人都有占优战略,那么所有参与人的占优战略组合便是该博弈的唯一均衡,叫占优战略均衡。,二、占优战略均衡,囚徒困境,( ),练习:价格竞争策略,三、重复剔除的占优均衡,首先找出某一参与人的严格劣战略,将它剔除掉,重新构造一个不包括已剔除战略的新的博弈,然后继续剔除这个新的博弈中某一参与人的严格劣战略,直到剩下唯一的参与人战略组合为止。这个唯一剩下的参与人的战略组合,就是博弈的均衡解,称为“重复剔除的占优战略均衡”。,“智猪博弈”,假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有8个单位的猪食进槽,但
11、是谁按按钮就会首先付出2个单位的成本,如果两头猪一起去按按钮,同时到达食槽,大猪吃5个单位,小猪吃3个单位,扣除2个单位成本,其支付组合为(3,1)。其余情况依次类推。,(按,等待)是该博弈的唯一均衡。,四、纳什均衡,纳什均衡是指这样一种均衡状态,在这一均衡状态中,每一个参与人选择的战略必须是针对其他参与人选择战略的最优反映,没有人愿意独立放弃他所选择的战略。纳什均衡要求任何一个参与者在其他参与者的策略选择给定的条件下,其选择的策略是最优的。在一个纳什均衡里,任何一个参与者都不会改变自己的策略,如果其他参与者不改变策略。,囚徒困境,占优策略均衡是比纳什均衡更强的一个博弈均衡概念。占优策略均衡要
12、求任何一个参与者对于其他参与者任何策略选择来说,其最优策略都是唯一的。而纳什均衡只要求任何一个参与者在其他参与者的策略选择给定的条件下,其选择的策略是最优的。所以,占优策略均衡一定是纳什均衡,而纳什均衡不一定就是占优策略均衡。,囚徒困境,囚徒困境的启示,个体理性与集体理性的矛盾。一种制度安排或一种体制选择,要发生效力,它必须是纳什均衡。否则,这种制度安排是不能成立的。,性别战,纳什均衡常常不是唯一的,在这种条件下,纳什均衡的存在性并不意味着均衡结果会出现,即使结果是一个纳什均衡,但也是我们无法准确预测的;经济学家的建议是:可以增加更多的限制条件,如增加参与人的其他信息,使得纳什均衡的数目减少,
13、从而做出预测。,游戏者B U V W,游戏者,A,X,Y,Z,练习1:寻找纳什均衡?,游戏者B U V W,游戏者,A,X,Y,Z,练习2:寻找纳什均衡?,纳什均衡,纳什均衡是博弈的结局,在该均衡中每个局中人均不能因单方面改变自己的策略选择而获益。纳什均衡是一个僵局:给定别人不动的情况下,没有人有兴趣动。纳什均衡可以理解为一种具有自我强制力的协议,即这种协议没有外加力量保证实施却使每个参与者都自愿遵守,原因就在背叛协议无利可图。,第三节 完全信息动态博弈,在完全信息动态博弈中,博弈各方的行动有先后的顺序,且后行动者可以观察到先行动者的具体行动,而且行动可能不止一次。 在这种情况下,每个参与者在
14、选择策略的时候,不仅需要考虑当前的选择,可能还要考虑当前选择的战略对于以后的博弈将产生什么影响。,进入者,在位者,不进,进入,打击,默许,(0,300),(-10,0),在位者,打击,默许,(0,300),(40,50),一、博弈扩展式表述,博弈树的构成:,节点nodes,决策节点(decision nodes),终点节(terminal nodes),树枝branches:每一条树枝代表一个行动,信息集information sets:参与人在决策节点选择行动时,对此前博弈过程的一个全部而明确的认识就构成一个信息集。,二、有限次动态博弈,(进入,默许)(不进入,打击)还是均衡解吗?,NE(4
15、0,50),(0,300)(进入,默许)(不进入,打击),在位者会根据进入者的选择来调整自己的选择;而进入者也会理性地预期到这一点,所以不能不考虑自己的选择对在位者的影响,从而适当调整自己的策略。这种情况与寡头模型中的斯塔克尔伯格模型很相似。,(0,300)(不进入,打击),(40,50)(进入,默许),只有(进入,默许)才是稳定的结果;,(不进入,打击)是不可置信的,因为它依赖于一个不可置信的威胁:即使进入者不进入,在位者仍将予以打击。,定义:如果一个完全信息的动态博弈中,各博弈方的策略构成的一个策略组合满足,在整个动态博弈及它的所有子博弈中都构成纳什均衡,那么这个策略组合称为该动态博弈的一
16、个子博弈精炼纳什均衡。逆推归纳法是求完美信息动态博弈子博弈精炼纳什均衡的基本方法。,泽尔滕进一步完善了纳什均衡的概念,定义了子博弈精炼纳什均衡“SPNE”,用于区分动态博弈中的“合理纳什均衡”与“不合理纳什均衡”。,三、子博弈精炼纳什均衡,逆推归纳法:就是从动态博弈的最后一个子博弈开始分析,逐步向前倒推以求解动态博弈的方法。,逆推归纳法的一个显著优点是: 在每一个子博弈中排除不可信的许诺或威胁,子博弈精炼纳什均衡(SPNE)的中心意思就是排除掉均衡策略中不可信的威胁和承诺,因此是真正稳定的.它要求Player的决策在任何决策点上都是最优的。 在许多情况下,SPNE也减少了NE的个数,这一点对预测非常有意义,乙,不借,(0,0),借,甲,还,(400,500),不还,乙,打,(350,450),不打,(-100,1000),打官司成本100万元,平均分摊。,乙,不借,(0,0),借,甲,还,(400,500),乙,打,不打,(350,450),(-100,1000),不还,逆推第一步,得:,乙,不借,(0,0),甲,还,(400,500),不还,乙,(350,450),借,逆推第二步,得:,乙,不借,(0,0),借,甲,(400,500),稳定的策略组合:,乙:在第一阶段“借”,如果甲不还,那么在第 三阶段“打”;,甲:只要乙肯借,就“还”。,