1、12-1第 12 章 博弈论一、本章要点概念(注:*表示在原教材中没有讲述的概念,但将在补充内容中加以介绍)零和博弈;常和博弈;变和博弈;纳什均衡;混合策略纳什均衡;纯策略纳什均衡;弱占优策略;占优策略;囚犯困境;重复博弈;协调博弈;聚点均衡;信任博弈;共存博弈;进化稳定策略;序贯博弈*占优均衡分析;*重复剔除严格劣战略;*划线法;*箭头法;*逆推法原理(注:序号 m.n,m 代表第几节,n 代表原理的序号)1.1 博弈论是一种分析行为人之间策略互动的有用工具。根据博弈参与人总收益是否变化,博弈可以分为常和博弈与变和博弈。前者充分体现了参与人之间的竞争或冲突,后者则帮助我们思考如何能够实现社会
2、最优的有效率结果。1.2 纳什均衡是指这样一组策略,给定其他人的选择,每个参与人的选择对自己而言都是最优的。纳什均衡是策略的均衡,它是在人们的策略互动中实现的。2.1 囚犯困境中存在个人理性与集体理性冲突,因而社会最优的结果无法实现;协调博弈与信任博弈中,个人理性与集体理性并不冲突,但个人理性需要借助某种机制才能实现社会最优的结果。2.2 与纳什均衡相比,占优均衡更为严格,占优均衡一定是纳什均衡,但反之则不一定。2.3 重复博弈中的合作需要以始终存在着将来进一步合作的可能为条件。通过在无限次的重复博弈中建立声誉,囚犯困境中合作的结果就能够实现。3.1 通过将参与人的不同选择理解成坚持各自不同选
3、择的不同类型的参与人,博弈论就能够被用于分析动物世界中的演化问题。动物种群的演化,可以理解为采取某种(或某些)特定策略的动物逐步淘汰了采取其它非最优策略的同伴。4.1 在动态博弈中,威胁或承诺将变得可能。与静态博弈相比,这很可能会改变博弈的结果,使社会最优得以实现。二、新增习题1、石头剪刀布的游戏是以下那种博弈?(可多选)A. 零和博弈 B. 静态博弈C. 变和博弈 D. 动态博弈2、以下说法正确的是什么?(可多选)A. 占优博弈一定是纳什博弈 B. 占优博弈不一定是纳什博弈C. 纳什博弈一定是占优博弈 D. 纳什博弈不一定是占优博弈3、甲X YA (0,0) (0,1)乙B (2,0) (0
4、,0)以上博弈的均衡是什么?A. B,X B. A,Y和B,X C. A,Y D. 不存在12-24、两家公司甲和乙都希望发展一项新技术,考虑市场风险,技术的兼容性很重要。甲公司在技术上比乙公司成熟得多,甲公司拥有A 技术,乙公司拥有B技术。两家公司达成一项共识:如果他们采取相同的技术,市场就会接纳这项技术,每个公司的收益是200万元;而如果他们的技术不同,市场则不能接受,两家公司都没有收益。而改变技术的成本如下:甲公司发展B技术要花250万元,乙公司发展 A技术则花费100万元。假设他们是同时作决定的,请问均衡的结果是什么?A. A技术 B. 甲公司采用A技术,乙公司采用B技术C. B 技术
5、 D. 甲公司采用 B 技术,乙公司采用 A 技术5、甲公司是垄断厂商,利润为100万元。现有乙公司,欲进入同一市场。如果乙公司不进入,自然没有收益。如果乙公司选择进入,甲公司可以选择容纳和阻挠,如果选择容纳,则两个公司都可以获得利润50万元,如果选择阻挠,则两家公司都会损耗50万元,求这个博弈的均衡解。A. 乙公司进入,甲公司接纳。 B. 乙公司不进入,甲公司接纳。C. 乙公司进入,甲公司阻挠。 D. 乙公司不进入,甲公司阻挠。6、求解下列博弈的纳什均衡。乙左 中 右上 4,3 5,1 6,2中 2,1 8,4 3,6甲下 3,0 12,6 2,97、从博弈论的角度解释,为什么股份公司中,总
6、是大股东监督,小股东则搭便车。8、利用重复剔除劣战略的方法求解,均衡结果是否与劣战略的剔除顺序有关?9、博弈方之间存在先后顺序,就一定是动态博弈吗?10、请用“囚犯困境”来解释厂商间的价格战。三、习题答案1、A和B参与人的收益之和为零,所以是零和博弈;博弈的参与人同时行动,且在行动时无法观察到对方的行动,所以是静态博弈。2、A和D占优均衡中,无论对方选择什么,参与人的选择总是对自己最优,所以占优均衡一定是纳什均衡。但纳什均衡不一定是占优均衡,比如教材 12.2.3 的电话博弈中,存在两个纯策略纳什均衡和一个混合策略纳什均衡,但并不存在占优均衡。3、B对于甲,给定乙选择 A,则甲选择 X 和 Y
7、 是无差别的;给定乙选择 B,甲选择 X。对于乙,给定甲选择X,则乙选择 A和B是无差别的;给定甲选择Y,则乙选择A 。因此均衡的结果是 A,Y 和 B,X。12-34、A博弈矩阵如下图。第一种情况,倘若甲乙两公司都采取A技术,那么甲公司不需要改进技术即可获得收益200万元;而乙公司改进技术花费100万元得到收益200万元,则其净收益为100(=200-100)万元。如果两家公司都不作出技术改进,则花费均为零,收益也为零,因此经收益均为零。如果两家公司都作出技术改进,那么只有花费,没有收益,净收益为(-250,-100) 。如果两家公司都采取 B技术,那么甲公司花费250万元,得到收益200万
8、元,净收益-50(=200-250)万元;乙公司不作技术改进即可得到净收益200万元。对甲公司来说,采取A技术是占优策略。对乙公司来说,给定甲公司采取A 技术,最优策略是同样采取A技术。所以均衡的结果是两家公司都采取 A技术。乙公司A技术 B技术A技术 (200,100) (0,0)甲公司B技术 (-250,-100) (-50 ,200)5、A。可以画博弈树,再逆向求出均衡。如果乙公司进入,甲公司选择容纳,可以得到 50 万元,甲公司选择阻挠,会损耗 50 万元,因此甲公司选择容纳。回到第一阶段,如果乙公司不进入,则收益为零;如果进入,由于甲公司会选择容纳,乙公司可以获得利润 50 万元,因
9、此乙公司会选择进入。6、可以根据划线法或箭头法求得有唯一纯策略均衡(上,左)乙左 中 右上 4,3 5,1 6,2中 2,1 8,4 3,6甲下 3,0 12,6 2,97、这是智猪博弈的一个应用。监督需要付出一定的成本。对于小股东来说,监督所获得的收益并不足以弥补其付出的成本,所以不监督是小股东的占优策略。给定小股东不监督的情况下,大股东选择监督一般总是严格优于不监督的。所以最终的均衡是由大股东负责监督,小股东就搭大股东的便车。8、如果剔除的是严格劣战略,均衡结果与剔除顺序无关。设想一下,是否先考虑 A 的劣战略剔除,影响的是 A 需要的面对的其他参考人的战略有所不同。如果最先考虑 A 的劣
10、战略剔除,A 需要面对其他参与人的所有战略组合,如果后考虑 A 的劣战略组合,那么可能有一部其他参与人的劣战略已被剔除,即 A 需要面对其他参与人的部分战略组合。由于A 剔除的是严格劣战略,那么不论是对其他参与人的所有战略组合,还是部分战略组合,该战略总是严格更劣于 A 的其他战略的。因而,该战略总会被剔除,与剔除顺序无关。但是,如果是剔除弱劣战略,均衡结果就可能与剔除顺序有关。如下例:参与人 BC1 C2 C3R1 3, 5 2, 5 2, 3参与人 AR2 2, 5 1, 4 1, 312-4R3 2, 5 1, 6 1, 3如果剔除顺序为 R3,C3,C2,R2,则均衡为(R1,C1 )
11、,若剔除顺序为 C3,R2,C1,R3,则均衡为(R1,C2) 。9、错。并不是所有选择、行为有先后次序的博弈问题都是动态博奔。例如两个厂商先后确定自己的产量,但只要后确定产量的厂商在定产之前不知道另一厂商定的产量是多少,就是静态博弈问题而非动态博弈问题。10、 “囚犯困境”的内在根源是,在个体之间存在行为和利益相互制约的博弈结构中,以个体理性和个体选择为基础的分散决策方式,无法有效地协调各方面的利益,并实现整体、个体利益共同的最优。简单地说, “囚徒的困境”问题都是个体理性与集体理性的矛盾引起的。对于生产同质产品或价格弹性较高产品的厂商,其集体理性是提高价格以提高整体的利润,但在需求量一定的
12、条件下,对于单个厂商而言,降低价格将提高销售量,从而可能提高利润,倘若每个厂商都这样想,就产生了价格战,结果是大家的利润都下降了。(事先上,在现实世界中,很多涉及到人们之间的策略性互动的问题都没有实现双方的福利最大化,读者不妨用“囚犯困境”来解释一下其他经济现象,比如战争的爆发、贸易保护、地区间的市场分割。 )四、课后思考题:1、 象棋比赛属于以下哪种类型的博弈:静态博弈、动态博弈、变和博弈、零和博弈。答案要点:象棋是动态博弈,这是因为在每局比赛中,都有先手和后手之分,后动者会根据先动者的行动思考决定自己的行动方案,而不是双方同时行动。如果胜方得益为1,负方为-1 ,而平局双方得益均为 0,那
13、么象棋比赛就是零和博弈。2、 为什么人们都不愿意在火车站附近吃饭和住宿?(小陆的一次亲身经历是,在火车站附近的一家店里吃饭,一条鱼的价格在点的时候是 8 元一斤,结账时变成了 8 元一两。)答案要点:产生这样的现象是因为在该动态博弈中存在承诺的置信问题。正如教材图12.10 中所展示的那样,消费者先决定是否消费,商家再决定是否提供优质服务。消费者不愿消费是因为商家无法对消费者作出可信的承诺让消费者相信自己在第二阶段会选择提供优质服务。上述问题主要可以通过改变商家欺骗行为的结果来解决:(1)消费者保护协会和司法程序对消费者提供及时有效的保护。若商家的欺骗行为会得到司法打击,则其被投诉之后的损失远
14、远大于一次欺骗行为的收益,此时商家不会选择欺骗。 (2)博弈需要重复进行。若商家在乎自己的声誉,则它不会欺骗消费者。因为欺骗的行为伤害了商家的声誉,使得商家长期的品牌价值受损的程度远远大于一次博弈中商家所得到的利益。在火车站附近,人口流动性大,这使得有吃饭和住宿需求的消费者与“生产者 ”之间的关系更趋向一次博弈,这时,重复博弈导致合作结果的“声誉”机制不起作用。同时,外地来的消费者在本地运用法律手段保护自己权益的成本也较高,这时, “保护 ”机制也难起作用。3. 在静态博弈中,双方行动时无法观察到对方的行动,因此,每一方都希望自己的行动能够先被对方看到,从而起到先发制人的效果。这个说法正确吗?
15、答案要点:这个说法是不正确的。在静态博弈中,不仅有先发制人,还有后发优势。例如在猜拳的博弈中,就没有哪个博弈者想要自己的行动被对方看到,相反,他们希望自12-5己能看穿对方的行动。每一方是否希望自己的行动能够先被对方看到是由博弈的结构决定的。不能武断地得出结论。4. 请你从博弈论的角度分析以下成语:破釜沉舟、穷寇勿追、哀兵必胜。答案要点:这三个成语都是描述在动态的斗鸡博弈中威胁有效的现象。在动态斗鸡博弈中,后动的一方处于劣势,为了改变博弈结果,后动的一方可以选择实行有效的威胁。对于理性的对手,要让威胁有效,后动的一方可以有两种选择:使对手相信自己是非理性的或者使对手相信自己不能选择后退。前者可
16、以是“哀兵必胜 ”描述的现象,后动的一方相信自己是出于正义,或怀有悲愤之情,无论对方选择什么行动都会选择前进。这时获知这一信息的理性对手反而会作出对后动一方有利的决策。后者可以是“破釜沉舟”或“穷寇莫追”描述的现象,当后动的一方切断自己的退路或被逼入绝境时,并且这种威胁可信时,先动的一方也会作出对后动一方有利的决策。5. 在石油输出国组织达到联合限产的协议之后,对每个成员国而言,偷偷地增加自己的产油量是一种怎样的策略呢?答案要点:对石油输出国组织的成员国而言,他们的博弈就类似于囚犯困境。某个成员国偷偷增加产油量对自己而言是占优策略,但对石油输出国组织而言,会减少组织总收益。所以,对于这样的组织而言,如果要保持统一行动,就需要形成长期合作的关系。或者对违约者加重惩罚力度,使单方面违约成为不理性的选择。