1、田忌赛马,屡战屡败:田忌: 上 中 下 齐威王:上 中 下赢得比赛:田忌: 下 上 中齐威王:上 中 下,第十章 博弈论,要解决的问题:人们之间决策的相互作用、相互影响。,学习目的与要求,1.了解博弈论的基本框架 2.掌握完全信息静态博弈的基本分析方法 3.熟悉完全信息动态博弈的分析思路 4.了解不完全信息静态博弈、不完全信息动态博弈的有关知识,本章的地位与重要性,1.是经济学的基本分析方法,也是学习与研究其他学科的基本分析工具。 2.是研究当行为人的决策互相影响时的有效分析工具(尤其是对寡头垄断厂商的行为的分析)。,内容与结构,第一节 博弈论概述 第二节 完全信息静态博弈 第三节 完全信息动
2、态博弈,一、 博弈论的产生与发展 二、 博弈论的研究框架,第一节 博弈论概述,一、主流经济学与博弈论,研究的对象 经济资源的稀缺性 选择与资源配置 中心理论 价格制度或市场机制 基本假设前提-完全理性-完全信息,新古典经济学假设行为决策人是完全理性的,且具有与最优化相关的所有知识(信息)并能正确地运用这些知识来指导自己的行动。这一假定是主流经济学派理论体系的一个结构性支柱。它使经济学家们不顾现实世界的纷繁复杂,致力于对均衡和本质规律的研究。,完全理性与有限理性,人的完全理性意味着,人有足够的信息、知识和计算能力,来确保实现自己的效用最大化。因此,理性假定意味着理性人能够运用数学工具描述人的(最
3、大化)行为。 对完全理性人的理解 他们有一个很好定义的偏好,并能够按照即定的偏好进行选择; 他们的选择受到预算约束; 他们努力在约束条件下实现效用最大化。 但事实上,现实中的人多数情况下处于有限理性状态。,有限理性是指在处理信息、应付复杂情况和寻求理性目标中个人的能力是有限的。 有限理性人是知识有限、信息有限的个人,在现实中也不是先知先觉、富有远见的理性人。 他们不可能也不期望在复杂的环境中想得太远太多。 他们不可能预测到将来发生的所有可能事件,并且针对它们做出详细的行动计划和分配方案。 他们即使能够预测和做出计划的话,也没有一种人类语言能足够丰富和准确地描述它。,完全信息,完全信息意味着信息
4、是对称的,充分的,完全信息的人有足够的信息实现自己最大化行为。 但现实的市场并不完全,如买卖双方的人数并不足够的多,信息也是不对称的。 有限的人数意味着人们之间的行为是有直接影响的,所以一个人在决策时必须考虑对方的反应,这就是博弈论要研究的问题。 信息不对称意味着任何一种有效的制度安排必须满足“激励相容”,这就是信息经济学研究的问题。,由于经济学和博弈论的研究模式是一样的,都强调个人理性,即追求给定条件下效用最大化,因此博弈论在经济学中得到了广泛的应用,对寡头理论、信息经济学等方面的发展做出了重要贡献。,政策制订者的决策工具;社会经济问题的理论分析工具,解释经济中许多低效率现象的根源,找出各种
5、经济问题的制度性、环境性原因,揭示各种经济行为和政策的效率意义等。,严格的说,博弈论并不是经济学的一个分支,它是一种方法,用数学的知识来研究当理性人的决策相互影响时,他们是如何进行决策以获取最大收益的。其应用范围并不局限于经济学,还涉及到政治学、军事学、外交学甚至犯罪学等多个领域。,博弈论是在1944年由冯诺依曼和奥摩根斯坦恩发表的博弈论和经济行为引入经济学的。合作型博弈在20世纪50年代达到了巅峰期。 1950年和1951年纳什的两篇关于非合作博弈论的重要论文,彻底改变了人们对竞争和市场的看法。他证明了非合作博弈及其均衡解,并证明了均衡解的存在性,即著名的纳什均衡。1994年度的诺贝尔经济学
6、奖授予三位从事对策论研究的经济学家:纳什、泽尔腾、海萨尼。在博弈论的演进过程中,以纳什、海萨尼、泽尔腾为代表的经济学家采用数学语言和公理性的方法来进行研究,成为博弈论的主流范式。,2002年纳什与清华学子在一起,2005年诺贝尔经济学奖授予有以色列和美国双重国籍的罗伯特奥曼和美国人托马斯谢林,以表彰他们通过博弈理论的分析增强世人对合作与冲突的理解。托马斯谢林独辟蹊径,开创了非数学博弈理论这一新的领域,进行了更加接近现实观察的分析。,罗伯特奥曼,托马斯谢林,罗伯特-奥曼 ,1930年生于德国法兰克福,目前拥有以色列和美国双重国籍。1955 年自麻省理工学院取得数学博士学位,现在以色列的希伯莱大学
7、更改中心担任教授。奥曼是国际知名的博弈论专家,2002年与约翰-纳什一同被聘为山东青岛大学名誉教授。,托马斯谢林,1921年生于美国加利福尼亚州的奥克兰。1951年从哈佛大学取得经济学博士学位。他是马里兰大学经济系和公共政策学院荣退杰出教授,同时也是哈佛大学政治经济学荣退教授。,2005年诺贝尔经济学奖授予有以色列和美国双重国籍的罗伯特奥曼和美国人托马斯谢林,以表彰他们通过博弈理论的分析增强世人对合作与冲突的理解。谢林独辟蹊径,开创了非数学博弈理论这一新的领域。他认为,博弈模型不可能表述双方或多方之间相互影响,决策主体的期望和行为的决定因素与其说是数学的,不如说是创造声誉、沿袭传统、建立自信、
8、显示大度等经验。非数理博弈理论分析的就是这样一种状态下的社会和经济行为:行为者本身对其它人的反应也作为其他人的期望而影响其行为。他建构了一套概念框架来描述这种相互预期的困境,进行了接近现实观察的分析。,同时承认了使用数学和不使用数学的博弈论以及博弈论理论家。 奥曼使用非常艰深的数学来研究博弈论;谢林不使用数学也研究博弈论。 两人因为数学而相互隔离,从未往来过,然而却殊途同归,一起走上了领奖台。,2007年诺贝尔经济学奖:又是博弈论,瑞典皇家科学院10月15日宣布,将2007年诺贝尔经济学奖授予以美国经济学家赫维茨、马斯金、罗杰-迈尔森,以表彰他们为机制设计理论奠定基础。 这是继1994年纳什、
9、1996年莫里斯、2001年斯蒂格利茨、2005年谢林等因为信息经济学和博弈论而获奖之后,诺贝尔经济学奖再一次被博弈论的研究者所摘取,博弈论在当代经济学理论中的奠基性地位由此可见一斑。,获奖者赫维茨今年已是90岁高龄,是自诺贝尔奖颁发以来年龄最高的获奖者。,二、博弈论(Game Theory)的主要内容,又称为对策论或游戏论,是研究决策主体的行为直接相互作用时的决策以及这种决策的均衡问题。,研究问题1:人们之间决策的相互作用、相互影响 OPEC成员国选择石油产量 寡头市场上厂商选择价格与产量,如Cournot Model 国家与国家之间:政治、外交、战争等的对抗,总统竞选、地区冲突(以巴局势)
10、、军备竞赛等 研究问题2:决策的均衡问题 制度安排 资源配置的效率问题,静态博弈指的是在博弈中,参与人同时选择行动或虽非同时但后行动者并不知道前行动者采取了什么具体行动;动态博弈指的是参与人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。 完全信息指的是每一个参与人对所有其他参与人(对手)的特征、战略空间及支付函数有准确的知识;否则,就是不完全信息。 注:合作博弈(cooperative game)与非合作博弈(non-cooperative game),前者指博弈的当事人之间达成一个有约束力的协议。,一、博弈中的基本概念 二、占优均衡 三、重复剔除的占优战略均衡 四、纳什均衡 五
11、、混合战略纳什均衡,第二节 完全信息静态博弈,一、博弈标准表达式,博弈论的基本概念包括: 参与人、行动、信息、战略、支付函数、结果、均衡。 博弈论的三要素:参与人、战略和支付,在每一个博弈中,都至少有两个参与者,每一个参与者都有一组可选择的策略。作为博弈的结局,每个参与者都得到各自的报酬。每一个参与者的报酬都是所有参与者各自所选择的策略的共同作用的结果,或者说是所有参与者所采用的策略的函数报酬函数或支付函数。 可以用一个支付矩阵来描述和分析一个博弈。 所谓博弈均衡指博弈中的所有参与者都不想改变自己的策略的这样一种状态。,二、占优战略均衡,囚徒A,坦白,不坦白,囚徒B,坦白,不坦白,囚徒困境(P
12、risoners Dilemma),无论其他参与者采取什么策略,某参与者的唯一的最优策略就是他的占优战略(dominant strategy)。博弈中的所有参与者的占优战略组合所构成的均衡就是占优战略均衡(equilibrium in dominant strategy ) 。 (坦白,坦白)就成为囚徒困境的均衡。囚徒困境反映了个人理性与集体理性的冲突。,厂商A,低价10,高价20,厂商B,低价10,高价20,练习:价格竞争策略,占优战略均衡:(低价,低价),三、重复剔除的占优战略均衡,大猪,踩,等待,小猪,踩,等待,智猪博弈 pigs payoffs,小猪的理性选择是“等待”,那么大猪就会正
13、确的预测到小猪的选择而将“等待”剔除,(踩,等待)是该博弈的唯一均衡。,“智猪博弈”的结果,在博弈中,占优势的一方最终得到的结果,未必一定会占优。 多劳未必多得。 员工激励机制的设计。,大猪的收益外部化,小猪不劳而获,免费搭了大猪的便车。,首先,找出某一参与人的严格劣战略无论其他博弈参与人采取什么战略,某一参与人可能采取的战略中,对自己严格不利的战略。 将它剔除掉,重新构造一个不包括已剔除战略的新的博弈,然后继续剔除这个新的博弈中某一参与人的严格劣战略,直到剩下唯一的参与人战略组合为止。 这个唯一剩下的参与人战略组合,就是博弈的均衡解,称为“重复剔除的占优战略均衡”。,游戏者BU V,游戏者,
14、A,X,Y,Z,练习:寻找占优战略均衡?,四、纳什均衡( Nash Equilibrium ),在一个博弈中,只要每一个参与者都具有占优战略,那么该博弈就一定存在占优战略均衡。但是需要指出的是,在有的博弈中,并不存在占优战略,仍可以达到博弈均衡。,女,看足球 看电影,男,看足球,看电影,2 1,0 0,0 0,1 2,在一个纳什均衡里,任何一个参与者都不会改变自己的策略,如果其他参与者不改变策略。,性别战(情侣博弈),思考,纳什均衡与占优战略均衡的关系?,比较,占优战略均衡: 我所做的,是不管你做什么我所能做的最好的; 你所做的,是不管我做什么你所能做的最好的;纳什均衡: 我所做的,是给定你所
15、做的时我所能做的最好的; 你所做的,是给定我所做的时你所能做的最好的;,占优策略均衡是比纳什均衡更强的一个博弈均衡概念。占优策略均衡要求任何一个参与者对于其他参与者任何策略选择来说,其最优策略都是唯一的。而纳什均衡只要求任何一个参与者在其他参与者的策略选择给定的条件下,其选择的策略是最优的。所以,占优策略均衡一定是纳什均衡,而纳什均衡不一定就是占优策略均衡。 重复剔除的占优战略均衡也一定是纳什均衡。,举例:古诺均衡与卡特尔,假设双寡头垄断市场的需求函数为:Q=120-P,两个厂商的边际成本相等且为0 在古诺模型中,我们可以求得:q1=q2=40,P=40,1=2=1600,=3200 在卡特尔
16、的模型中,我们可以求得:q1=q2=30,P=60,1=2=1800,=3600,结论,古诺均衡是纳什均衡,而卡特尔不是纳什均衡; 个人理性与集体理性存在冲突; 纳什均衡的结果对集体成员而言是一件坏事,但是对整个社会来说也许是一件好事; 一种制度的安排要发生效力,必须是一种纳什均衡,否则这种制度安排便不能成立。,例:市场进入阻挠,进入者,进入,不进入,在位者,默许,斗争,纳什均衡,纳什均衡是博弈的结局,在该均衡中每个局中人均不能因单方面改变自己的策略选择而获益。 纳什均衡是一个僵局:给定别人不动的情况下,没有人有兴趣动。 纳什均衡可以理解为一种具有自我强制力的协议,即这种协议没有外加力量保证实
17、施却使每个参与者都自愿遵守,原因就在背叛协议无利可图。,小偷,偷 不偷,警察,抓,不抓,1 -1,0 2,-2 0,3 0,警察与小偷,五、混合战略纳什均衡,女,篮球 音乐会,男,篮球,音乐会,3 1,0 0,0 0,1 3,性别战(情侣博弈),此博弈有两个纯战略纳什均衡,还有一个混合战略纳什均衡,男的以3/4的概率选择看篮球,以1/4的概率选择听音乐会;女的以1/4的概率选择看篮球,以3/4的概率选择听音乐会。,证明,0,0,1,-1,1,-1,-1,1,-1,1,0,0,游戏者B石头 剪子 布,游戏者,A,石头,剪子,布,猜拳游戏,1,-1,0,0,-1,1,概念之间的关系,一、 博弈扩展
18、式表述 二、 有限次动态博弈 三、 子博弈精炼纳什均衡,第三节 完全信息动态博弈,一、博弈的扩展式表述,博弈的扩展式表述给出每个战略的动态描述:谁在什么时候行动,每次行动时有些什么具体行动可供选择,以及知道些什么。具体来说,包括以下要素: 参与人集合、参与人的行动顺序、参与人的战略选择空间、参与人的信息集、参与人的支付函数、外生事件的概率分布。,重复博弈,在上面的分析中,所有的对局者仅对抗一次,不会重复进行。这是一种静态博弈。但是在现实中,同样结构的博弈可能要重复许多次。在对局可以多次重复的情况下,每个对局者在选择策略的时候,不仅需要考虑当前的对局,可能还要考虑当前选择的策略对于以后的对局将产
19、生什么影响。 如果囚徒困境博弈可以重复无限次,那么合作会导致理想的结果。,重复博弈:走出囚徒的困境,不重复博弈,甲厂,乙厂,合作,不合作,不合作,10 10,6 12,12 6,8 8,合作,厂商A,低价,高价,厂商B,低价,高价,产品定价博弈,在无限次重复博弈中,如果对方合作,本方也始终合作,如果对方不合作,本方也不合作,这种战略称为“针锋相对”或“以牙还牙” 。 而有限次的重复博弈与一次性的博弈在本质上没有什么区别。,如果参与者的行动有先后顺序,而且后行动的参与者在自己行动之前可以观测到先行动者的行动,并选择相应的战略,这种博弈被称为序列博弈,它是动态博弈的一种形式。,二、有限次动态博弈,
20、例:市场进入阻挠,进入者,进入,不进入,在位者,默许,打击,进入者,在位者,不进,进入,打击,默许,(0,200),(-10,0),在位者,打击,默许,(0,200),(40,50),博弈扩展式表述,博弈树的构成,节点nodes,决策节点(decision nodes),终点节(terminal nodes),树枝branches:每一条树枝代表一个行 动,信息集information sets:参与人在决策节点选择行动时,对此前博弈过程的一个全部而明确的认识就构成一个信息集。,博弈树:市场进入博弈,进入者,进入,不进入,X,X,在位者,在位者,默许,打击,默许,打击,(40,50),(-10
21、,0),(0,200),(0,200),纯战略纳什均衡(进入 ,默许)(不进入,打击),(进入,默许)(不进入,打击)还是均衡解吗?,NE(40,50),(0,200)(进入,默许)(不进入,打击),(0,200) (不进入,打击),(40,50) (进入,默许),只有(进入,默许)才是稳定的结果;,(不进入,打击)是不可置信的,因为它依赖于一个不可置信的威胁:无论进入者进入还是不进入,在位者都将予以打击。,在序列博弈中,原有的纳什均衡很难给出合理的答案,(不进入,打击)是不可置信的 斯塔克尔伯格模型的例子:先行者占优 发展进一步的概念来分析动态博弈的均衡,动态博弈(惯序博弈),厂商A,脆,甜
22、,厂商B,脆,甜,A,上,下,B,左,右,市场进入博弈,(上,左)(下,右)是两个纳什均衡,博弈扩展形式,A,B,B,1,3,2,上,下,左,右,右,左,(2,2),(2,1),(1,0),(3, 1),威胁与承诺,威胁是否是可信的?,厂商A,进入,不进入,厂商B,进入,不进入,例:市场进入博弈,市场进入的博弈扩展形式(博弈树),A,B,B,1,3,2,进,入,不,进,入,入,进,不,不,进,进,入,入,入,进,(-50,-50),(100,0),(0,100),(0, 0),当A有先行者优势时,A的最佳选择是进入,而B的理性选择是不进入。,(不进入,进入)是不可置信的,定义:如果一个完全信息
23、的动态博弈中,各博弈方的策略构成的一个策略组合满足,在整个动态博弈及它的所有子博弈中都构成纳什均衡,那么这个策略组合称为该动态博弈的一个子博弈完美纳什均衡。 逆推归纳法是求完美信息动态博弈子博弈完美纳什均衡的基本方法。,Selten进一步完善了纳什均衡的概念,定义了子博弈完美纳什均衡“SPNE”,用于区分动态博弈中的“合理纳什均衡”与“不合理纳什均衡”。,三、子博弈精炼纳什均衡,泽尔腾1965年提出了对纳什均衡概念的第一个最重要的改进,“子博弈精炼纳什均衡”,区分了“合理的纳什均衡”和“不合理的纳什均衡”,剔除了不可置信威胁策略。,子博弈 一个扩展式表示博弈的子博弈G是由一个单结信息集x开始的
24、与所有该决策结的后续结(包括终点结)组成的能自成一个博弈的原博弈的一部分。 子博弈精炼纳什均衡 扩展式博弈的战略组合 是一个子博弈精炼纳什均衡,如果(1)它是原博弈的纳什均衡;(2)它在每一个子博弈上给出纳什均衡。,逆推归纳法:就是从动态博弈的最后一个子 博弈开始分析,逐步向前倒推以求解动态博 弈的方法。,在一个动态博弈中,由他的一个决策结开始的后续博弈阶段就构成了原动态博弈的一个“子博弈”。,最后的子博弈变成:,稳定的结果是:(进入,默许),逆推归纳法的一个显著优点是:在每一个子博弈中排除不可信的许诺或威胁,子博弈完美精炼纳什均衡(SPNE)的中心意思就是排除掉均衡策略中不可信的威胁和承诺,
25、因此是真正稳定的。 它要求Player的决策在任何决策点上都是最优的。 在许多情况下,SPNE也减少了NE的个数,这一点对预测非常有意义。,乙,不借,(0,0),借,甲,分,(400,500),不分,乙,打,(350,450),不打,(-100,1000),打官司成本 100万元, 平均分摊。,乙,不借,(0,0),借,甲,(400,500),稳定的策略组合:,乙:在第一阶段“借”,如果甲不分,那么在第三阶段“打”;,甲:只要乙肯借,就“分”。,老年人,储蓄,挥霍,年轻人,赡养,不赡养,两个纳什均衡(储蓄,不赡养),(挥霍,赡养),两代人之间有关储蓄的冲突,老年人-,储蓄年轻人-,赡养-(2,
26、-1) 不赡养-(1,1),挥霍年轻人-,赡养-(3,-1) 不赡养-(-2,-2),均衡:( 挥霍,赡养 ),对市场进入博弈,考虑如下假设:如果在位者事先投资100万于万一进入发生时增加产量和价格战所需要的额外的生产能力,这就意味着,不管怎样,这个额外成本都将减少在位者的利润,那么最终的均衡还是原来的(进入,默许)吗?,竞争者A,进入,不进入,连锁店B,容忍,商战,连锁店悖论:不可信的威胁,竞争者A,进入,不进入,连锁店B,容忍,商战,可信的威胁,承诺:是指对局者所采取的某种行动,这种行动使其威胁成为一种令人可信的威胁。,一、 不完全信息静态博弈:贝叶斯纳什均衡二、 不完全信息动态博弈:精炼
27、贝叶斯均衡,第四节 不完全信息博弈,一、不完全信息博弈的基本概念,不完全信息博弈是指博弈的个参与人对其他参与人的支付函数并不完全了解的博弈。,例:市场进入博弈:不完全信息情况,在位者,默许,打击,进入,不进入,进入者,进入者,进入,不进入,高成本情况,低成本情况,二、不完全信息静态博弈:贝叶斯纳什均衡,1-P,N,P,不进,进,不进,进,(0,300),(40,50),(-10,0),(0,400),在位者,在位者,(30,80),(-10,100),打击,打击,“海萨尼(John-Harsanyi)转换”后的市场进入博弈,三、不完全信息动态博弈:精炼贝叶斯纳什均衡,精炼贝叶斯均衡是所有参与人
28、战略与信念的一种结合,它满足如下条件: (1)给定每个有关其他人类型的信念的情况下,他的战略选择是最优的; (2)每个人有关他人类型的信念都是使用贝叶斯法则从所观察到的行为中获得的。,四、信号传递博弈,信号传递博弈是一种比较简单但有广泛意义的不完全信息动态博弈,在博弈中有两个参与人,i=1,2,先后给行动一次;参与人1与多个类型,先行动;参与人2后行动,他不知道参与人1的具体类型,所以是不完全信息者,但他可以观察到先行动一方的行动并从中获得部分信息。因此先行动的一方行动对后行动者来说好像是某种反应其类型信息的信号,因此该博弈被称为“信号传递博弈”。,Summary,key words:Game TheoryPrisoners DilemmaNash EquilibriumDominant Strategies EquilibriumSub Game Perfect Nash EquilibriumBayesian Nash EquilibriumPerfect Bayesian Nash Equilibrium,以下开始第十一章,