1、第十二节 博弈论、博弈论的应用,博弈论又叫对策论,这是近年来发展非常快的经济理论领域之一,在历年考研试题中,该部分内容是必考题,一般以判断题、选择题形式出现,而从目前的形势看,随着博弈论在经济学中地位越来越重要,研究越来越充分,主观大题目将是上财经济学考研中的一个出题方向。,本节总结的考点有以下十点:1纳什均衡2最优反应曲线3纯策略与混合策略4囚徒困境5重复博弈6序惯博弈7合作博弈8竞争博弈9、共存博弈10承诺博弈,1(上财07年判断题)在一个二人博弈中,当一个参与人有占优(dominate)策略时,该博弈一定有一个纯策略纳什均衡。( ) 分析:在一个二人博弈中,当一个参与人有占优(domin
2、ate)策略时,该博弈有一个纯策略纳什均衡。因为一个参与人有占有策略,那么不管另一个参与人选择什么,这个参与人都会选择某个策略,当这个参与人的选择了最好策略后,另一个参与人的策略也就出来了。如下表,在这个二人博弈中,参与人A的策略是“上”占优于“下”,对A来说,不管B选择什么,A都会选择上;当A选择了上之后,B就会选择右。而且我们可以看出,(上,右)是纯策略纳什均衡。,2(判断题)一个对策若出现两败俱伤的结局,说明该对策是一个非合作的零和对策。( )解析 零和博弈:在这类博弈中,博弈一方的收益等于另一方的损失,且每一个方格中的总收益为零,这就显示了参与人的得分完全相反。如表1中的“足球赛中的罚
3、点球得分”博弈。 零和博弈既然要求博弈的参与者任一次行为策略的得益之和为0,即“一方之所得即为另一方之所失”,那么在本题中,在两败俱伤的局面下,该博弈肯定不是一个零和对策。,表1 足球赛中的罚点球得分,3(判断题)纳什均衡就是指不管在什么情况下,博弈的局中人都不再改变自己策略时的状态。 ( )分析:在这里要注意区别纳什均衡和占优策略均衡。占优策略均衡就是指博弈中一个参与人的最优策略不依赖于其他人的策略选择,不论其他人选择什么策略,他的最优策略是唯一的。占优策略均衡是稳定的,也就是说不管在什么情况下,拥有占优策略均衡的参与者一定不会改变自己的策略。纳什均衡指的是如果其他参与人不改变自己的策略,任
4、何一个参与人都不会改变自己策略的均衡状态。前提条件是其他参与人不改变策略。但如果其他参与人一旦改变策略,那么纳什均衡也有可能随之而改变,当然也有可能不会改变。换句话就是说,纳什均衡是指这样一种策略组合,在给定别人策略选择的情况下,没有任何单个参与人有积极性选择其他策略。此时的纳什均衡并一定是稳定的。即纳什均衡的存在并不一定表示纳什均衡的稳定性。比如性别战就有两个不稳定的纯纳什均衡解。,4(判断题)纳什定理告诉我们纳什均衡解存在且稳定。( )分析:纳什定理即指纳什均衡存在性定理,指如果一个对策的参与人是有限的,并且每个参与人只有有限的策略,则该对策至少存在一个纳什均衡。但该定理没有指出解是否唯一
5、,一个对策可能存在多个纳什均衡;也没有指出解是否稳定。而且,很多情况下,纳什均衡解都是不稳定的。如性别战中的均衡解就是两个不稳定的纯纳什均衡解。,5(上财07年选择题)下列博弈中的混合策略均衡是( )。A1采取A的概率是3/7,采取B的概率是4/7;2采取U的概率是3/7,采取D的概率是4/7B1采取A的概率是4/7,采取B的概率是3/7;2采取U的概率是4/7,采取D的概率是3/7C1采取A的概率是4/7,采取B的概率是3/7;2采取U的概率是3/7,采取D的概率是4/7D1采取A的概率是1/2,采取B的概率是1/2;2采取U的概率是1/2,采取D的概率是1/2,【分析】 首先要明确什么是混
6、合策略均衡,参与人选择混合策略就是选择一个概率分布,然后按照这个分布给出的概率来选择各个纯策略。混合策略是用概率分布x来表示的,混合策略的变化完全反映为概率分布x的变化。 在本题中,设1选A概率为p,2选U概率为q,则根据1选A,B无差异,2选U,D 无差异,列出等式 对1来说 8q+0(1-q)=0q+6(1-q) 对2来说 3p+0(1-p)=0p+4(1-p) 解出,则得p=4/7,q=3/7,所以选C。,6某对策中甲乙双方各有三个策略,其相应的支付矩阵如下图所示:问:(1)甲会不会采用策略A,为什么?(2)请剔除上述支付矩阵里的占劣策略。(3)在被简化了的对策里,有没有均衡?均衡是什么
7、?它是不是原对策的均衡?试说明。,解析:(1)在这里要先理解什么是占劣策略。如果一个策略的每一种结果都比另一个策略的每一种结果差,那么该策略就叫做占劣策略。在本题中,很明显,策略A是甲的占劣策略。因为无论乙选择什么策略,甲选择C策略的收益都会大于选择A策略的收益。所以甲始终不会选择A策略。(2)如图所示,对于甲来说,A是C的占劣策略,所以我们先剔除A,即在甲的A策略上划一条线以示剔除。在剩下的支付矩阵中我们又发现乙的策略D和F均劣于策略E,所以D和F是乙的占劣策略。我们进而划线把这两个策略剔除。(3)通过上面第二问,我们采用剔除占劣策略的方式,在最后被简化的对策中,均衡解为(C,E)。当然,大
8、家也可以用传统的划线法求原博弈的均衡,如下图所示。显然,同样均衡解为(C,E)。,7(上财07年选择)考虑一个囚徒困境的重复博弈,下列哪种情况将增加出现合作结果的可能性?( )A参与人对未来收益的评价远低于对现期收益的评价B参与人之间的博弈是频繁发生的C欺骗不容易被发现D从一次性欺骗中得到的收益比欺骗的成本更大,【解析】B一个囚徒困境的重复博弈,是博弈论中常举的例子,也是常考的知识点。当对策的重复次数为无限时,局中人在每一个阶段都知道对策至少还要重复一次以上,因而合作大有前景,长期利益在望。在这种无限次重复的囚犯对策中,每个人的策略都是一个函数序列,它表明每个局中人在每个阶段是选择合作还是选择
9、背叛,都是作为此阶段之前对策历史的函数。 在重复对策中,局中人的收益是各阶段收益的贴现值之总和贴现和(向0时刻贴现)。具体地说,设局中人在时刻t的收益(即第t局重复中的支付)为ut (t=1,2,3),他在重复对策中的收益就是贴现和 ,其中为贴现率。只要贴现率不很高,囚犯难题每一局重复的均衡策略便都是(合作,合作),每个人在各个阶段都会看到合作的利益。可以证明只要贴现率不很高,当一方背叛时,另一方也采取背叛给其以惩罚,就能使背叛者尝其苦果。由此看来,只有双方互相合作下去。如有一方背叛,另一方就要执行惩罚策略来使背叛者饱尝苦果,因而没有一方能够从背叛中会有收获。所以,在贴现率不很高的情况下,囚犯
10、难题重复对策的均衡是两个局中人在各阶段都采取合作策略。 也即只有当参与人充分考虑未来时,即未来足够重要时,他们之间才有合作的可能性。当参与人之间的博弈频繁发生时,他们就会考虑预期未来收入,进而出现合作的可能性。,8(简答题)请求出下列得矩阵所表示的对策中的混合策略纳什均衡,并画出相应的反应曲线来说明。,解析:设A选择T的概率为p,则其选择B的概率为1p;B选择L的概率为q,则其选择R的概率为1q。B选择L的期望得益为:p+2(1p);B选择R的期望得益为:2p当p+2(1-p)2p,即p2/3时,B以1的概率选择R。为了使B无法判断出A的倾向性,有p+2(1-p)=2p。于是,有p=2/3,A
11、选择T的期望得益为:2q;A选择B的期望得益为:q+3(1-q)。当2qq+3(1-q),即q3/4时,A以1的概率选择T;当2qq+3(1-q),即q1/3时,行参与人会提高r值;当c2/3时,列参与人会提高r值;当c1/3,行参与人的最优反应是r1。对于列参与人道理相同。从而可以画出两个参与人的最优反应曲线。如图行参与人的最优反应曲线列参与人的最优反应曲线,如图3所示所示。从图中可以看出,该博弈存在3个均衡,其中两个是纯策略均衡,1个是混合策略均衡。,10(选择题)关于囚徒困境,下列说法错误的是:( )。A如果把囚徒困境运用于寡头垄断厂商理论中,那么囚徒困境中的“合作”可以解释为卡特尔组织
12、,而“背叛”可以解释为双方打价格战;B囚徒的困境说明了个人的理性选择不一定是集体的理性选择;C在囚犯难题中,如果每一个囚犯都相信另一个囚犯会不招供,那么两个人都会不招供。 D囚犯难题是一个涉及两方的简单的对策,在这一对策中双方都独立依照自身利益行事,则双方不能得到最好结果。,分析:对于选项A,囚犯对策的意义就在于它可以解释寡头垄断厂商的行为,而且关键是赋予了合作与背叛具体的经济含义。比如在双头垄断的情况下,合作可以解释为“保持索要一个高价”,背叛可解释为“降价以争夺对手的市场”。对于选项B,在囚犯难题中,每个囚犯都选择了自己的最优策略,所以个人理性得到了体现;但最后的结果是可以进行帕雷托改进的
13、,所以并不是集体理性的选择。对于选项C,如下图所示, 在囚犯B抵赖的情况下,囚徒A选择坦白的得益0大于选择抵赖的得益1,因此无论另一个囚犯招供不招供,这个囚犯都会招供,招供是其占优策略。对于选项D, 这就是对囚犯难题的描述。,12(判断题)在重复博弈中,局中人一定会采取合作的策略。( ) 分析:重复博弈要区分为有限次还是无限次的重复博弈。两者的均衡解是不同的。 有限次重复对策:假定每个局中人都知道对策将重复一个固定的次数(比如重复次)。考虑最后一轮对策实施之前局中人给予的推理,此时每个人都认为他们在进行一次性对策。 运用倒退归纳法。先从第5次开始,由于这是最后一次移动,将来不会再有,其结果是局
14、中人双方都选择“背叛”策略。再考虑第4次的移动,这里似乎每个局中人都重视合作,以向对方发出他是“好人”的信号,以便能在下一次以及最后一次移动中合作。但是,最后一次移动中双方都将采取背叛,因此在倒数第二次的移动中合作就没有什么优势可言。采取合作是为了得到长期利益,为了在将来最后一次移动中得到回应。然而,将来最后一次移动中并不能得到合作,双方都背叛了,结果倒数第二次移动中双方也只有采取背叛。同理不断向后归纳,结果最后一次移动之前的所有移动中,合作并不能带来什么长期利益,没有什么优点,局中人惟有相信其他局中人将在最后一次移动中背叛,用现在的善意企图去影响未来下一次的移动是无利可图的。 因此,在重复某
15、一固定次数的囚犯难题重复对策中,每一局对策的均衡局势都是“(背叛,背叛)”,而不是“(合作,合作)”。,2无限次重复对策:前面已经讲过,当对策的重复次数为无限时,局中人在每一个阶段都知道对策至少还要重复一次以上,因而合作大有前景,长期利益在望。在这种无限次重复的囚犯对策中,每个人的策略都是一个函数序列,它表明每个局中人在每个阶段是选择合作还是选择背叛,都是作为此阶段之前对策历史的函数。 重复对策中,局中人的收益是各阶段收益的贴现值之总和贴现和(向0时刻贴现)。具体地说,设局中人在时刻的收益(即第局重复中的支付)为,他在重复对策中的收益就是贴现和,其中为贴现率。只要贴现率不很高,囚犯难题每一局重
16、复的均衡策略便都是(合作,合作),每个人在各个阶段都会看到合作的利益。可以证明只要贴现率不很高,当一方背叛时,另一方也采取背叛给其以惩罚,就能使背叛者尝其苦果。由此看来,只有双方互相合作下去。如有一方背叛,另一方就要执行惩罚策略来使背叛者饱尝苦果,因而没有一方能够从背叛中会有收获。所以,在贴现率不很高的情况下,囚犯难题重复对策的均衡是两个局中人在各阶段都采取合作策略。,13(选择题)在一个地区只有一家商店,该家商店有许多顾客。每个顾客可能只买一次或有限次该商店的商品,但该商店与顾客总体的交易可以看作无限次重复对策。在对策的每一个阶段,商店选择销售商品的质量,顾客选择是否购买。如果双方得益情况如
17、下列矩阵所示,顾客决定是否购买时不知道所买产品的质量,但知道所有以前的顾客购买产品的质量。则在无限次重复博弈中,如果厂商采取合作,那么将收益多少?( )A1/(1-)B2C1/2(1-)D3,解析:按重复对策下合作(本题中高质量)实现的条件的思路来求解。厂商如果采取合作的态度,销售高质量产品时,顾客的最优选择是购买,因此,厂商在重复对策下得到的收益是:如果厂商采取不合作的态度,那么得到的收益是(假设顾客采取冷酷策略): ,如果 ,即 ,商场始终只销售高质量的产品。(2)因为大商场由于位置固定与顾客之间是重复对策,为了保证未来的合作收益,大商场会提供高质量的产品。而走街串巷的小商贩与顾客之间只是
18、一次对策,因此会提供低质量的产品使当期收益最大化。,14甲乙两人各在纸片上写下“合作”或“抗争”两词,然后双方同时翻开纸片。如果两人都写“合作”,每人各得100元;若两人都写“抗争”,两人什么也得不到;若一人写“抗争”,另一人写“合作”,则:“合作”者得S, “抗争”者得 T。要使“抗争”为优势策略,S和T必须是( )。 AS+T200 BS100 CS100 D以上都不是 分析:这应该是上财的一道考题。由题意,画出支付矩阵,如表4: 要想抗争成为最优策略,那么 T100, S0。所以选择C。,表4,15 下列( )不属于同时行动的博弈? A性别战 B足球赛中的罚点球得分 C斗鸡博弈 D绑架博弈解析:同时行动的博弈中,每个参与人必须在不知道对方所作选择(不论他正在选择还是已经选择了)的情况下,作出自己的选择。这里的关键是“不知道”对方的选择,而不是强调的时间相同。合作博弈和竞争博弈关注的大多是同时行动的博弈。在这类博弈中,如果一方知道另一方的选择,博弈就会变得毫无价值。,