第五讲博弈论2.ppt-道客多多_道客多多docduoduo.com

资源描述

1、主要内容,1.博弈论概述 2.完全信息静态博弈 3.完全信息动态博弈,博弈论概述,保罗萨缪尔森说：“要想在现代社会做一个有文化的人,你必须对博弈论有一个大致的了解。” 人们在日常生活中进行着博弈，与配偶，朋友，陌生人，老板/员工，教授等。类似的博弈也在商业活动、政治和外交事务、战争中进行着在任何一种情况下，人们相互影响以达成彼此有利的协议或者解决争端。博弈论为众多学科提供了分析的概念和方法：经济学和商学,政治科学,生物学, 心理学和哲学。,1.1与传统微观经济学的比较,传统经济学涉及的个人决策，是在给定价格参数和收入的条件下，追求效用最大化的决策（消费者均衡或生产者均衡）；个人效用只

2、依赖于自己的选择，而外在于他人的选择；个人最优选择只是价格和收入的函数而不包含其他人选择的函数。在博弈论看来，个人效用不仅依赖于自己的选择，而且依赖于他人的选择；个人的最优选择是其他人选择的函数。,1.1与传统微观经济学的比较,一致性利益最大化原则均衡原则不一致人与人之间的关系-个人理性导致集体非理性-设计协调性机制-满足个人理性前提下达到集体理性信息不完全-委托-代理理论、信号传递与信息筛选模型,1.2 博弈论的发展简史,博弈思想最早产生于我国古代。早在两千多年的春秋时期，孙武在孙子兵法中论述的军事思想和治国策略，就蕴育了丰富和深刻的对策论思想。孙武的后代孙膑，为田忌谋划，巧胜齐王

3、，这个著名的“田忌赛马”，就是典型的对策思想的成功运用。,田忌赛马,齐国的大将田忌，很喜欢赛马，有一回，他和齐威王约定，要进行一场比赛。他们商量好，把各自的马分成上，中，下三等。比赛的时候，要上马对上马，中马对中马，下马对下马。由于齐威王每个等级的马都比田忌的马强得多，所以比赛了几次，田忌都失败了。田忌觉得很扫兴，比赛还没有结束，就垂头丧气地离开赛马场，这时，田忌抬头一看，人群中有个人，原来是自己的好朋友孙膑。孙膑招呼田忌过来，拍着他的肩膀说： “我刚才看了赛马，威王的马比你的马快不了多少呀。”,田忌赛马,孙膑还没有说完，田忌瞪了他一眼： “想不到你也来挖苦我！” 孙膑说：“我不是挖

4、苦你，我是说你再同他赛一次，我有办法准能让你赢了他。” 田忌疑惑地看着孙膑： “你是说另换一匹马来？” 孙膑摇摇头说： “连一匹马也不需要更换。” 田忌毫无信心地说： “那还不是照样得输！”孙膑胸有成竹地说： “你就按照我的安排办事吧。”,田忌赛马,齐威王屡战屡胜，正在得意洋洋地夸耀自己马匹的时候，看见田忌陪着孙膑迎面走来，便站起来讥讽地说： “怎么，莫非你还不服气？” 田忌说：“当然不服气，咱们再赛一次！”说着，“哗啦”一声，把一大堆银钱倒在桌子上，作为他下的赌钱。齐威王一看，心里暗暗好笑，于是吩咐手下，把前几次赢得的银钱全部抬来，另外又加了一千两黄金，也放在桌子上。齐威王轻蔑地说：

5、 “那就开始吧！” 一声锣响，比赛开始了。,田忌赛马,孙膑先以下等马对齐威王的上等马，第一局输了。齐威王站起来说： “想不到赫赫有名的孙膑先生，竟然想出这样拙劣的对策。” 孙膑不去理他。接着进行第二场比赛。孙膑拿上等马对齐威王的中等马，获胜了一局。齐威王有点心慌意乱了。第三局比赛，孙膑拿中等马对齐威王的下等马，又战胜了一局。这下，齐威王目瞪口呆了。比赛的结果是三局两胜，当然是田忌赢了齐威王。还是同样的马匹，由于调换一下比赛的出场顺序，就得到转败为胜的结果。,1.2 博弈论的发展简史,一、起源法国经济学家奥古斯丁古诺(Augustin Cournot 1838)古诺模型英国经济学

6、家弗朗西斯埃奇沃斯(Francis Edgeworth 1881) 伯川德(Bertrand)和斯坦克伯格(Stackelberg),二、早期突破 E策墨罗(EZermelo)于1913年对于象棋游戏的研究。证明了象棋游戏总是有解，即在棋盘的任何一种状态，两个参与者中的一个有赢的策略。开创了求解一类博弈的技巧，即后退归纳法,三、近代 (1) 约翰冯诺依曼(John von Neumann)于1928发表的论文 (2) 1944年，科学家冯诺伊曼和经济学家奥斯卡摩根斯坦合著博弈与经济行为的理论(The theory of Games and Economic Behaviour)被公认为是博弈

7、论的开山之作。,以往的数学是在物理学的基础上发展起来的，描述的是客观世界行为，而经济学研究的对象更像是一场游戏中的参与者，相互之间预期对方的行动，因此，描述、观察研究对象就需要一系列的数学工具，这一套新的数学工具，被他们命名为博弈论。,奥斯卡摩根斯坦（ Oskar Morgenstern）,19021977，生于西里西亚的戈尔利策。1944年加入美国籍。热心于将数学应用于人类的各种战略问题（不管是商业、战争，还是科学研究），以便获得最大利益和尽可能地减少损失。他认为这些原理也同样适用于哪怕简单得象抛掷硬币这样的游戏，因而提出了对策论（博弈论）。,约翰冯诺依曼（ John Von N

8、eumann）,19031957，美藉匈牙利人。18岁与老师合作发表第一篇数学论文，22岁获数学博士学位。 1927年一1929年冯诺依曼相继在柏林大学和汉堡大学担任数学讲师。1931年成为美国普林斯顿大学的第一批终身教授。1933年转到该校的高级研究所，成为最初六位教授之一，并在那里工作了一生冯诺依曼是普林斯顿大学、宾夕法尼亚大学、哈佛大学、伊斯坦堡大学、马里兰大学、哥伦比亚大学和慕尼黑高等技术学院等校的荣誉博士是美国国家科学院、秘鲁国立自然科学院和意大利国立林且学院等院的院士 1954年任美国原子能委员会委员；1951年至1953年任美国数学会主席。“计算机之父”“博弈论之父”。

9、,冯诺依曼和摩根斯坦的贡献,1，提出博弈的概念； 2，对效用理论给予公理依据； 3，零和博弈(Zero-sum Games)的最优解； 4，引进博弈论的一种形式，即合作博弈(cooperative Games),博弈论的发展简史,四、发展1、纳什均衡(Nash-Equilibrium) 1950年，约翰纳什(John Nash)引入均衡(解)的概念，即纳什均衡，将博弈论从零和博弈推进到非零和博弈(即参与人会出现双赢或双输的情况) 合作博弈中的讨价还价模型定义非合作博弈及证明均衡解的存在纳什获得1994年诺贝尔经济学奖,2、子博弈完美纳什均衡和贝叶斯纳什均衡 (Subgame-Perfe

10、ct Nash-Equilibrium; Bayes-Nash Equilibrium) 1965年和1975年兰哈德泽尔藤(Reinhard Selten)把纳什均衡推广到动态博弈，并提出子博弈完美纳什均衡； 1967-1968年间，约翰海萨尼(John Harsanyi)把纳什思想推广到不完全信息模型，提出贝叶斯均衡；他们与纳什一起分享1994年诺贝尔经济学奖,3、不对称信息条件下交易的对策 1996年诺贝尔经济学奖获得者詹姆斯莫里斯教授和威廉姆维克瑞教授在20世纪60、70年代提示不对称信息对交易带来的影响，并提出相应对策。,4、信息经济 2001年诺贝尔经济学奖授予美国乔治阿克尔

11、洛夫教授、迈克尔斯彭斯教授、约瑟夫斯蒂格利茨教授。20世纪70年代他们提示当代信息经济的核心，信息是有价值的。 1970年阿克尔洛夫提出旧车市场模型并提出：市场放开不能解决所有问题，信息是有价值的 1973年斯彭斯通过剖析人才市场盛行的造假行为指出人才市场存在用人单位与应聘者之间的信息不对称，造成“劣币”驱逐“良币”现象斯蒂格利茨将信息不对称理论应用于保险和金融市场,5 2005年，以色列经济学家罗伯特-奥曼和美国经济学家托马斯-谢林，因“通过博弈论分析加强了我们对冲突和合作的理解”所作出的贡献而获奖。,三、博弈论与诺贝尔经济学奖获得者,1994年诺贝尔经济学奖获得者,美国人约翰-海萨尼(

12、John C. Harsanyi) 和美国人约翰-纳什(John F. Nash Jr.)以及德国人莱因哈德-泽尔腾(Reinhard Selten) 获奖理由：在非合作博弈的均衡分析理论方面做出了开创性的贡献，对博弈论和经济学产生了重大影响。,约翰纳什 1928年生于美国,约翰海萨尼 1920年生于美国,莱因哈德泽尔腾，1930年生于德国,1996年诺贝尔经济学奖获得者,英国人詹姆斯莫里斯 (James A. Mirrlees)和美国人威廉-维克瑞(William Vickrey) 获奖理由：前者在信息经济学理论领域做出了重大贡献，尤其是不对称信息条件下的经济激励理论的论述；后者在信息经

13、济学、激励理论、博弈论等方面都做出了重大贡献。,詹姆斯莫里斯 1936年生于英国,威廉维克瑞，1914-1996，生于美国,2001年诺贝尔经济学奖获得者,三位美国学者乔治-阿克尔洛夫(George A. Akerlof)、迈克尔-斯彭斯(A. Michael Spence)和约瑟夫-斯蒂格利茨(Joseph E. Stiglitz) 获奖理由：在“对充满不对称信息市场进行分析”领域做出了重要贡献。,2005年诺贝尔经济学奖获得者,以罗伯特奥曼色列经济学家罗伯特奥曼（Robert J. Aumann）和美国经济学家托马斯谢林（Thomas C. Schelling）获奖原因：“通过博弈论分析

14、加强了我们对冲突和合作的理解”所作出的贡献而获奖。,1博弈论在经济学领域中应用最广泛，最成功；博弈论的许多成果也是借助于经济学的例子来发展引申的;2经济学家对博弈论的贡献也越来越大，特别是在动态分析和不完全信息引入博弈后，例如克瑞普斯，威尔逊都是经济学家;3最根本性的原因是经济学和博弈论的研究模式是一样的，都强调个人理性，即追求给定条件下效用最大化。,博弈专家之所以获经济学奖，原因大致有三点：,博弈论的基本概念,博弈是指一些个人、团队或组织，面对一定的环境条件，在一定的规则下，同时或先后，一次或多次，从各自允许选择的行为或策略中进行选择并加以实施，各自从中取得相应结果的过程。博弈论就是描述在这

15、种形势下各方理性地选择自己的行动所实现的结果，分析各决策主体的行为发生相互作用时的决策以及这种决策的均衡问题。,例：房地产开发,1、A B两个开发商，投资1亿； 2、如果市场上有两栋房出售，需求大，每栋：1.4亿；需求小，每栋：7千万；如果市场上有一栋房出售，需求大，每栋：1.8亿；需求小，每栋：1.1亿； 3、开发与不开发。,8种可能的结果,1、需求大，A开发，B不开发，则A的利润8千万， B的利润为0； 2、需求大，A开发，B开发，则A的利润4千万， B的利润4千万； 3、需求大，A不开发，B开发，则A的利润0， B的利润为8千万； 4、需求大，A不开发，B不开发，利润各为0,5、需求小，

16、A开发，B不开发，则A的利润1千万， B的利润为0； 6、需求小，A开发，B开发，则A的利润-3千万， B的利润-3千万； 7、需求小，A不开发，B开发，则A的利润0， B的利润为1千万； 8、需求小，A不开发，B不开发，利润各为0,如果需求是不确定的，是否开发依赖于各自在多大程度上认为市场需求是大的及对方是否开发。例：如需求大的概率为0.3，A认为B开发的可能性为x,那么A开发的期望利润为：Eu=0.34000x+8000(1-x)+0.7-3000x+1000(1-x) A不开发的期望利润为0。解Eu0 x31/40,博弈三要素、信息及博弈均衡,（1）局中人（player）：指参加博弈的各

17、个决策个体，既可以是自然人，也可以是团体。局中人都是“理性”的，即他清楚地了解自己的目标或利益所在，在决策时考虑自己的知识（信息）以及对其他局中人策略的期望，总是采取最佳行动（或策略）以实现其支付的最大化。虚拟局中人：自然，是外部随机变量，对所有利益主体都无差异。一般用i=1,n代表参与人，N代表自然,（2）行动与战略（ actions or strategies）。行动是局中人在博弈的某个时点的决策变量；每一个局中人的所有可能选择的行动的集合称这该局中人的行动空间（action space）；所有局中人的行动的一个有序集合称为该博弈的一个行动组合（action profile）；ai 表

18、示第i个参与人的一个特定行动； Ai=ai表示可供i选择的所有行动的集合；在n人博弈中，n个参与人的行动的有序集a=(a1,., ai,an)称为行动组合,（2）行动与战略（ strategies）。是局中人在所有给定信息集（信息集是局中人在特定时刻进行决策时所面对的集合）下的行动规则，他规定局中人在什么时候选择什么行动。si 表示第i个参与人的一个特定战略； Si=si表示可供i选择的所有可选择的战略集合；在n人博弈中，n个参与人每人选择一个战略，n维向量s=(s1,., si,sn)称为一个战略组合,（3）信息（information）：是局中人有关博弈的知识，特别是有关其他局中人的

19、特征（如策略空间、支付函数等等）和行动的知识。信息集（information sets）是局中人在特定时刻进行决策时，所面对的信息变量值的集合。共同知识（common knowledge）是指“所有局中人知道，所有局中人知道所有局人知道，”（或信息）。如果局中人的策略选择、支付函数等都是共同知识，则称之为完全信息（complete information ），否则就是不完全信息（incomplete information ）,（4）支付（pay off）：指在一个特定的策略组合下，局中人得到的效用水平或期望效用水平。一个局中人的支付是所有局中人的策略选择的函数，它不仅取决于自己的策略选择，而

20、且还取决于（他所设想的）所有其他局中人的策略选择，任何一个局中人改变自己的策略都将影响其他局中人的支付水平，即，局中人之间的利益是相互牵制的和制约的。所有局中人的支付的一个有序集合称为博弈的一个支付组合（payoff profile。Ui=Ui(s1,s2,si sn)参与博弈的多个局中人的收益可用一个矩阵或框图表示，这种矩阵或框图叫做收益矩阵。,（5）博弈均衡（games equilibrium）：是指所有局中人的最优策略组合。 S*=（S1*，Si*, Sn*) 其中， Si*是第i个参与人在均衡情况下的最优策略，它是i的所有可能的战略中使Ui或Eui最大化的战略。,（5）博弈均衡（gam

21、es equilibrium）：为了把一个特定的参与人与其他参与人相区别，用那么，说,博弈的类型,根据博弈者选择的策略，博弈论可划分为合作博弈与非合作博弈。纳什（Nash）、泽尔腾（Selten）和豪尔绍尼（Harsanyi）（1994诺贝尔经济学奖获得者）的主要贡献在于非合作博弈方面，而且现在大多数经济学家论及博弈时，也主要是指非合作博弈。,合作博弈和非合作博弈的区别在于人们的行动为相互作用时，当事人能否达成一个具有约束力（binding agreement）的协议。若有，就是合作博弈；否则就是非合作博弈。合作博弈强调的是团体理性、效率、公正和公平。非合作博弈强调的是个人理性、个人最优决策，

22、其结果可能是有效率的，也可能是无效率的。,从局中人行动的先后顺序可划分为静态博弈（Static game）和动态博弈（dynamic game）。静态博弈是指在博弈中，局中人同时选择行动或虽非同时行动但后行动者并不知道先行动者采取了什么具体行动。动态博弈是指局中人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。,从局中人是否具有有关其他参与人（对手）的特征、策略空间及支付函数方面的知识的角度，可划分为完全信息博弈(game of complete information)和不完全信息博弈(game of incomplete information)。,博弈的分类,零和博弈与非零和

23、博弈 (zero-sum game and non-zero-sum game),如果一个博弈在所有各种对局下全体参与人之得益总和总是保持为零，这个博弈就叫零和博弈；相反，如果一个博弈在所有各种对局下全体参与人之得益总和不总是保持为零，这个博弈就叫非零和博弈。零和博弈是利益对抗程度最高的博弈。,常和博弈与非常和博弈（constant-sum game and variable-sum game）,如果一个博弈在所有各种对局下全体参与人之得益总和总是保持为一个常数，这个博弈就叫常和博弈；相反，如果一个博弈在所有各种对局下全体参与人之得益总和不总是保持为一个常数，这个博弈就叫非常和博弈。

24、常和博弈也是利益对抗程度最高的博弈。非常和（变和）博弈蕴含双赢或多赢。,博弈的表述方式：战略式与扩展式,战略式表述又称为标准式表述，在这种表述中，所有参与人同时选择各自的战略，所有参与人选择的战略一起决定每个参与人的支付。,博弈的表述方式：策略式与扩展式,策略式：支付矩阵,扩展式：博弈树,A,博弈论进入主流经济学，反映了经济学发展的以下几个趋势：,第一，经济学研究的对象越来越转向个体，放弃了一些没有微观基础的假定，如消费函数及其投资函数、销售最大化等，一切从个人效用函数及其约束条件开始，解约束条件下的个人效用函数及其约束条件开始，解约束条件下的个人效用最大化问题而导出行为及均衡结果。,第二，

25、经济学越来越转向人与人关系的研究，特别是人与人之间行为的相互影响和作用，人们之间的利益冲突与一致，竞争与合作的研究。第三，经济学越来越重视对信息的研究，特别是信息不对称对个人选择及制度安排的影响。,完全信息静态博弈,一、占有战略均衡二、重复剔除的占优战略均衡三、纳什均衡四、混合战略纳什均衡五、纳什均衡的存在性与多重性,完全信息静态博弈的几点特性,同时出招，出招一次；知道博弈结构与游戏规则（共同知识）；不管是否沟通过，无法做出有约束力的承诺（非合作）,一、占优战略均衡,通常情况下，每个局中人的支付是博弈中所有参与人策略的函数，故每个局中人的最优策略选择依赖于所有其他参与人的策略选择。

26、但在一些特殊博弈中，一个参与人的最优策略选择可能并不依赖于其他参与人的策略选择，即无论其他参与人选择什么策略，他的最优策略是唯一的，这种最优策略被称为“占优策略”（dominant strategy）。定义：在博弈G=N,(Si)iN,(Ui)iN中，如果对所有的参与人i,si*是它的占优战略，那么所有参与人选择的战略组合（s1*,sn*）成为该对策的占优战略均衡。,例：“囚徒困境”囚徒困境是博弈论中的经典案例。该故事讲的是，两个嫌疑犯作案后被警察抓住，分别被关在不同的房间里进行审讯。警察知道两人有罪，但缺乏有力的证据，除非两人之中有一个坦白。警察告诉每个人，他们的可选择的策略与支付如下表：

27、,一、占优策略均衡,在该博弈中，每个囚徒有两种可能选择的策略：坦白和抵赖。显然，无论同伙选择什么策略，每个囚徒的最优策略都是“坦白”。如，B选择坦白，若A选择坦白时支付为-8，选择抵赖时支付为-10，因而坦白比抵赖好；若B选择抵赖，A坦白时的支付为0，抵赖时为-1，因而坦白比抵赖好。即是说，“坦白”是A的占优策略。同样，“坦白”也是B的占优策略。,“囚犯困境” 的扩展,两个寡头企业选择产量公共产品的供给军备竞赛经济改革结论：一种制度安排，要发生效力。必须是一种纳什均衡；否则，制度安排便不能成立。,价格大战,支付,百事可乐,可口可乐,二、重复剔除的占优战略均衡,在绝大多数博弈中，并不存在占

28、优策略均衡。但在有些博弈中，仍可应用占优的逻辑找出均衡。案例：“猪智博弈”猪圈里有两头猪（大猪和小猪），猪圈一头有一猪食槽,另一头安装着一个按制猪食供应的按钮，按一下钮，有8个单位的猪食进槽，但需2个单位的成本。两头猪有两种策略：按钮和等待。具体的博弈支付和结果如下表：,按按钮对对吃食量的影响,猪智博弈,依赖于小猪的策略：若小猪选“等待”，大猪的最优策略是“按”；若小猪选“按”，大猪的最优策略为“等待”。因此，不能用上述占优策略找出均衡。可能的均衡是什么呢？若小猪是理性的，他只会选“等待”，因为“等待”严格优于“按”。假定大猪知道小猪是理性的，则会预测到小猪的选择；此时，大猪的最优选择只能是“

29、按”。因此，（按，等待）是该博弈唯一的均衡。找出上述均衡的思路是：先找出某个参与人的劣策略（假定存在），把它剔除，重新构造一个不包含已剔除策略的新博弈；然后再剔除新博弈中某个参与人的劣策略；直至剩下一个唯一的策略组合。该策略组合就是博弈的均衡解，称为“重复剔除的占优策略,智猪博弈的扩展,股份公司承担监督经理职能的大股东与小股东股票市场上炒股票的大户与小户市场中大企业与小企业在研发、广告上的博弈公共产品的提供（富户与穷户）改革中不同利益分配对改革的推动,二、重复剔除的占优战略均衡,绝对劣势战略：si是一绝对劣势战略当且仅当存在另一战略siSi使得ui(si,s-i) ui(si,s-i)

30、对所有s-iS-i均成立。（ si 未必是优势战略）重复剔除的占优战略均衡：逐次删去绝对劣势战略得到唯一的占优战略。,例：找出下列博弈的重复剔除的占优策略均衡,解：,三、纳什均衡,定义：指一战略组合有以下特性：当参与人持此战略后，任一参与人均无诱因偏离这一均衡；s*=(s1*,sn*)=(si*,s-i*)是一纳什均衡，当且仅当对所有参与人而言，ui (si*,s-i*) ui (si,s-i*)对所有siSi 均成立。简单而言，当s1*是对s2*的最适反应，s2*也是s1*的最适反应时，（s1*,s2*）就是二人博弈的纳什均衡。命题1：纳什均衡在占优战略重复剔除解法中不会被剔除命题2

31、：重复剔除的严格占优战略均衡一定是纳什均衡。,策略组合就是一个纳什均衡。表,先看看书上怎么定义,通俗地说,设想在博弈论预测的博弈结果中，为使该预测是正确的，局中人自愿选择的战略必须是理论给他推导出的战略。这样，每个局中人要选择的战略必须是针对其他参与者选择战略的最优战略。这种理论推测结果可以叫做“战略稳定”或“自动实施”的，因为没有参与人愿意独自离弃他所选定的战略，我们把这一状态称为纳什均衡。,再通俗一点,给定你的策略，我的策略是最好的策略；给定我的策略，你的策略也是你的最好的策略。即双方在给定的策略下不愿意调整自己的策略。假设n个参与人在博弈之前达成一个协议，规定每一个参与人选择一个特定的

32、战略，在没有外在强制力的情况下，如果没有任何人有积极性破坏这个协议，则这个协议是自动实施的。这个协议就构成了一个纳什均衡。,一个例子,在电影美丽心灵中，纳什和他的伙伴到酒吧喝酒。遇到一位漂亮的金发美女和她的女伴们，此时音乐响起。男士和女士可以结伴跳舞。Bob和Tom是仅有的想邀请女士跳舞的两位男士，而想跳舞的女士加上金发美女一共有3人，相对于其他女士，男士们更喜欢与金发美女共舞，不过有女伴要比无人陪伴要好。电影中，纳什发现如果所有男士都去追求金发美女，他们不仅会被拒绝。还将惹恼其他女士，结果是男士都没有找到女伴，这是最坏的结果。,四、混合战略纳什均衡,单纯战略与混合战略的定义,如果一个战略规定

33、参与人在每一个给定的信息情况下只选择一种特定的行动，则称该战略为纯战略；如果一个战略规定参与人在给定的信息情况下以某种概率分布随机地选择不同的行动，则称该战略为混合战略。定义：在n个参与人博弈的战略式表述,单纯战略与混合战略的定义,单纯战略是混合战略的特例，因为任一单纯战略si都可以理解为i以概率1选择si，以0概率选取其他所有单纯战略。引入混合战略，参与人的目标需要修改为“最大化自己的期望支付”,社会福利博弈,政府的期望效用：,流浪汉的期望效用：,掷硬币,参与人1:max Eu=q(p(-1)+(1-p)1)+(1-q)(p1+(1-p)(-1)=-pq+q-pq+p-pq-1+q+p-

34、pq=-4pq+2q+2p-1 一阶条件为零求得：p=1/2,掷硬币的分析,给定参与人1（q,1-q），参与人2的支付是：q+(-1)(1-q)（正面）=(-1)q+(1-q)（反面）;给定参与人2（p,1-p），参与人1的支付为：p(-1)+(1-p)（正面）=p+(-1)(1-p)（反面）；求得（1/2，1/2）是纳什混合战略均衡,混合战略均衡的博弈原则,两博弈方不能让对方知道或猜到自己的选择，因而必须在决策时利用随机性；两博弈方选择每种策略的概率一定要恰好使对方无机可乘，即让对方无法通过针对性地倾向某一策略而在博弈中占上风。例：在掷硬币的博弈中，参与人1选正面、反面的概率q,1-q

35、，一定要使参与人2选正面的和反面的期望得益相等。,五纳什均衡的存在性与多重性,混合战略纳什均衡,纯战略纳什均衡,重复剔除占优均衡,占优均衡,不同均衡概念之间的关系,纳什均衡的存在性每一个有限博弈（博弈有有限个参与人且每个参与人有有限个纯战略）至少存在一个纳什均衡，这均衡有可能是混合战略均衡纳什均衡的多重性纳什均衡不唯一，如性别战,斗鸡博弈,1,2,支付,“斗鸡博弈”的扩展,夫妻间吵架警察与游行队伍公共产品的供给（两富户修路）,案例性别战,性别战：混合策略均衡,给定妻子分别以q,1-q的概率选择时装、足球，则丈夫选择时装、足球的期望收益相等，即1.q+0.(1-q)=0.q+3.(1-

36、q)，解得妻子选择时装、足球的概率分别为（3/4，1/4）给定丈夫分别以p,1-p的概率选择时装、足球，则妻子选择时装、足球的期望收益相等，即2.p+0.(1-p)=0.p+1.(1-p)，解得妻子选择时装、足球的概率分别为（1/3，2/3）,当妻子以（3/4，1/4）的概率分布随机选择时装表演和足球，丈夫以（1/3，2/3）的概率随机选择时装表演和足球时，双方都无法通过单独改变策略，即单独改变随机选择纯策略的概率分布而提高利益，因此双方的上述概率分布的组合构成一个混合策略纳什均衡。该混合策略纳什均衡给妻子和丈夫各自带来的期望收益分别为：q.p.2+q.(1-p).0+(1-q).p.0+

37、(1-q).(1-p).1=2/3;q.p.1+q.(1-p).0+(1-q).p.0+(1-q).(1-p).3=3/4 双方的期望收益均小于纯策略时的期望收益。,性别战：混合策略均衡,焦点均衡（focal point）,当一个博弈有多个纳什均衡时，博弈论并没有一个一般的理论来证明纳什均衡结果一定会出现。在现实生活中，参与人可能使用某些被博弈模型抽象掉的信息来达到一个“焦点”均衡。这些信息可能与社会文化习惯、参与人过去博弈的历史有关。（Schelling,1960) 例，在性别战中，如果今天是丈夫的生日，（足球、足球）可能是一个焦点均衡；而如果是妻子的生日，（时装、时装）可能是一个焦点均衡

38、。,完全信息动态博弈,1.博弈的扩展式要点解释 2.房地产开发博弈的另外几种类型解释 3.逆向归纳法,1.博弈的扩展式,在静态博弈中，所有参与人同时行动（或行动虽有先后，但没有人在自己行动之前观测到别人的行动）；在动态博弈中，参与人的行动有先后顺序，且后行动者在自己行动之前能观测到先行动的行动。正如博弈论专家习惯于用战略式表述描述和分析静态一样，他们也习惯于用扩展式表述来描述和分析动态博弈。,博弈的扩展式表述所“扩展”的主要是参与人的战略空间。扩展式表述要给出每个战略的动态描述：谁在什么时候行动，每次行动时有些什么具体行动可供选择，以及知道些什么。简单地说，在扩展式表述中，战略对应于参与

39、人的相机行动规则，即什么情况下选择什么行动，而不是简单的、与环境无关的行动选择。,具体来讲，博弈的扩展式表述包括以下要素：参与人集合：i=1，n，此外，我们将用N代表虚拟参与人“自然”；参与人的行动顺序：谁在什么时候行动；参与人的行动空间：在每次行动时，参与人有些什么选择；参与人的信息集：每次行动时，参与人知道些什么；参与人的支付函数：在行动结束之后，每个参与人得到些什么（支付是所有行动的函数）；外生事件（即自然的选择）的概率分布。,文字表述的博弈扩展式要点的含义为: 1.参与人 :开发商A与开发商B 2.行动顺序：开发商首先行动，选择开发或不开发；在A决策后，自然选择市场需求的

40、大小；开发商B在观测到A的决策和市场需求后，决定开发或不开发。 3.战略空间：A只有一个信息集，两个可选择的行动，因而A的行动空间也即战略空间：SA=（开发，不开发）。但B有两个信息集，每个信息集上有两个可选择的行动，因而B有四个纯战略，分别为：不论A开发还是不开发，我开发；A开发我开发，A不开发我不开发；A开发我不开发，A不开发我开发；不论A开发还是不开发，我不开发。可简写为开发，开发，开发，不开发，不开发，开发和不开发，不开发。,4.信息集：开发商A行动时有两种选择“开发”和“不开发”，开发商A行动时不知道开发商B的行动开发商B行动时有两者选择“开发”和“不开发”，但开发商B行动时已

41、经知道了开发商的行动。 5.支付函数：,在上述例子中，我们用文字描述的方法给出了博弈问题的扩展式描述。也可以采用更为直观的扩展式博弈的描述方式博弈树。,博弈树的构成,1结(nodes)：结包括决策结(decition nodes)和终点结(terminal nodes)两类。决策结是参与人采取行动的时点，终点结是博弈行动路径的终点。在博弈树中，“谁在什么时候行动”用在决策结旁边标注参与人的办法来表示。参与人的支付标注在博弈树终点结处。 2枝(branches)：在博弈树上，枝是从一个决策结到它的直接后续结的连线，每一个枝代表参与人的一个行动选择。 3信息集(information sets)

42、：博弈树上的所有决策结分割成不同的信息集。每一个信息集是决策结集合的一个子集。该子集包括所有满足下列条件的决策结：(1)每一个决策结都是同一参与人的决策结；(2)该参与人知道博弈进入该集合的的某个决策结，但不知道自己究竟处于哪一个决策结。,信息集：博弈树上的所有决策结分割成不同的信息集。满足下列条件：（1）每一个决策结都是同一参与人的决策结。（2）该参与人知道博弈进入该集合的某个决策结，但不知道自己处于哪一个决策结。,2.房地产开发博弈的类型解释,博弈：B知道A的选择和自然选择之后决策。,博弈：B在决策时并不确切知道自然的选择。,博弈：B知道N但不知道A的选择，A既不知道N的选择也不知道B

43、的选择。,如果博弈树的所有信息都是单结的，该博弈称为完美信息博弈。在博弈树上，完美信息意味着没有任何两个决策结实用虚线连起来的。自然的信息集总是假定为单结的。因为自然是随机行动的，自然在参与人决策之后行动等价于自然在参与人决策之前行动但参与人不能观测到自然的行动。因而博弈树上是否出现连接不同决策结的虚线取决于我们如何划决策结的顺序。,改变图2.1的决策顺序,3.逆向归纳法(backward induction),在有限博弈中，我们可以用逆向归纳法求解精炼纳什均衡：从最后一个决策点开始，找出该子博弈的纳什均衡；然后再倒回到倒数第二个决策点，找出决策者的最优决策（假定最后一个决策者的决策是最优的

44、；如此一直到初始决策点，所有子博弈上的最优选择就是精炼纳什均衡。又称“rollback”. 如同重复剔除的占优均衡要求“所有参与人是理性的”是共同知识一样，用逆向归纳法求解均衡也要求“所行参与人是理性的”是共同知识。,举例,1,2,1,（2，0）,（5，0）,（4，2）,（1，1）,U,D,R,L,U,D,最终结果，1选择U，2的信息集不在均衡路径。,蜈蚣博弈悖论,“蜈蚣博弈悖论”（简称“蜈蚣悖论”）是在博弈论及博弈逻辑的研究中发现的悖论，是一种合理行为选择的悖论。“蜈蚣博弈”(centipede game)是由罗森塞尔(Rosenthal)在1981年提出的一个动态博弈问题。由于这个博弈的扩

45、展形很像一条蜈蚣，因此被称为“蜈蚣博弈”。它是指这样一个博弈：两个博弈方A、B轮流进行策略选择，可供选择的策略有“合作”和“不合作”两种。他们的博弈展开式如下： A B A A B A B (10,10) | * * * * | * * * | * * * * * * | * * * *| * * * * | * * * | (1,1) * (0,3) * (2,2) * * * (8,8) * (7,10) * (9,9) * (8,11),逆向归纳法的问题,逆向归纳法只能分析明确设定的博弈问题，要求博弈的结构，包括次序、规则和得益情况等都非常清楚，并且各个博弈方了解博弈结构，相互知道对方

46、了解博弈结构。这些可能有脱离实际的可能逆向归纳法也不能分析比较复杂的动态博弈在遇到两条路径利益相同的情况时逆推归纳法也会发生选择困难对博弈方的理性要求太高，不仅要求所有博弈方都有高度的理性，不允许犯任何错误，而且要求所有博弈方相互了解和信任对方的理性，对理性有相同的理解，或进一步有“理性的共同知识”,A B A A B A B (10,10) | * * * * | * * * | * * * * * * | * * * *| * * * * | * * * | (1,1) * (0,3) * (2,2) * * * (8,8) * (7,10) * (9,9) * (8,11),在图中

47、，博弈从左到右进行，横向连杆代表合作策略，向下的连杆代表不合作策略。每个人下面对应的括号代表相应的人采取不合作策略，博弈结束后，各自的收益，括号内左边的数字代表A的收益，右边代表B的收益。如果一开始A就选择了不合作，则两人各得1的收益，而A如果选择合作，则轮到B选择，B如果选择不合作，则A收益为0，B的收益为3，如果B选择合作，则博弈继续进行下去。可以看到每次合作后总收益在不断增加，合作每继续一次总收益增加1，如第一个括号中总收益为112，第二个括号为033，第二个括号则为224。这样一直下去，直到最后两人都得到10的收益，总体效益最大。遗憾的是这个圆满结局很难达到！,A B A A B A

48、 B (10,10) | * * * * | * * * | * * * * * * | * * * *| * * * * | * * * | (1,1) * (0,3) * (2,2) * * * (8,8) * (7,10) * (9,9) * (8,11),大家注意，在上图中最后一步由B选择时，B选择合作的收益为10，选择不合作的收益为11。根据理性人假设，B将选择不合作，而这时A的收益仅为8。A考虑到B在最后一步将选择不合作，因此他在前一步将选择不合作，因为这样他的收益为9，比8高。B也考虑到了这一点，所以他也要抢先A一步采取不合作策略如此推论下去，最后的结论是：在第一步A将选择不合作

49、，此时各自的收益为1！这个结论是令人悲伤的。不难看出，在该博弈的推理过程中，运用的是逆推法。从逻辑推理来看，逆推法是严密的，但结论是不合理的。因为一开始就停止的策略A、B均只能获取1，而采取合作性策略有可能均获取10，当然A一开始采取合作性策略有可能获得0，但1或者0与10相比实在是很小。直觉告诉我们采取“合作”策略是好的。而从逻辑的角度看，A一开始应选择“不合作”的策略。人们在博弈中的真实行动“偏离”了运用逆推法关于博弈的理论预测，造成二者间的矛盾和不一致，这就是蜈蚣博弈的悖论。,人生的倒后推理,李恕权李恕权是一为知名艺人，在台湾及美国发行过很多张畅销排行榜音乐专辑，黄子佼就是因为模仿他的蚱蜢舞步而走红。当时李恕权是葛来美奖史上唯一被提名的华裔流行歌手，也是唯一打入Billboard杂志排行榜的华裔歌手。并曾荣获全美十大杰出青年之殊荣，1992年甚至荣登全美之世界名人录。李恕权的第一首招牌歌是回，这使他一夜成名。他的代表作还有麦芽糖、风中的枫、抹去你的口红、赤子黑色寂寞、放假的日子、一点暗示等,

展开阅读全文

第五讲 博弈论2.ppt

第五讲博弈论2.ppt