1、博弈论习题1、 A、B 两企业利用广告进行竞争。若 A、B 两企业都做广告,在未来销售中, A 企业可以获得 20 万元利润,B 企业可获得 8 万元利润;若 A 企业做广告,B 企业不做广告,A 企业可获得 25 万元利润,B 企业可获得 2 万元利润;若 A 企业不做广告,B 企业做广告,A 企业可获得 10 万元利润,B 企业可获得 12 万元利润;若 A、B 两企业都不做广告,A 企业可获得 30 万元利润,B 企业可获得 6 万元利(1 )画出 A、B 两企业的支付矩阵。 (2)求纳什均衡。3. 答:(1)由题目中所提供的信息,可画出 A、B 两企业的支付矩阵(如(2 )因为这是一个
2、简单的完全信息静态博弈,对于纯策纳什均衡解可运用划横线法求解。 如果 A 厂商做广告,则 B 厂商的最优选择是做广告,因为做广告所获得的利润 8 大于不做广告获得的利润 2,故在 8 下面划一横线。如果 A 厂商不做广告,则 B 厂商的最优选择也是做广告,因为做广告获得的利润为 12,而不做广告的利润为 6,故在 12 下面划一横线。如果 B 厂商做广告,则 A 厂商的最优选择是做广告,因为做广告获得的利润 20 大于不做广告所获得的利润 10,故在 20 下面划一横线。如果 B 厂商不做广告,A 厂商的最优选择是不做广告,因为不做广告获得的利润 30 大于做广告所获得的利润 25,故在 30
3、 下面划一横线。 在本题中不存在混合策略的纳什均衡解,因此,最终的纯策略纳什均衡就是A、B 两厂商都做广告在本题中不存在混合策略的纳什均衡解,因此,最终的纯策略纳什均衡就是 A、B 两厂商都做广告。北方航空公司和新华航空公司分享了从北京到南方冬天度假胜地的市场。如果它们合作,各获得 500000 元的垄断利润,但不受限制的竞争会使每一方的利润降至 60000 元。如果一方在价格决策方面选择合作而另一方却选择降低价格,则合作的厂商获利将为零,竞争厂商将获利 900000 元。 (1)将这一市场用囚徒困境的博弈加以表示。 (2)解释为什么均衡结果可能是两家公司都选择竞争性策略。答:(1)用囚徒困境
4、的博弈表示如下表(2 )如果新华航空公司选择竞争,则北方航空公司也会选择竞争(600000) ;若新华航空公司选择合作,北方航空公司仍会选择竞争(900000500000) 。若北方航空公司选择竞争,新华航空公司也将选择竞争(600000) ;若北方航空公司选择合作,新华航空公司仍会选择竞争(9000000 ) 。由于双方总偏好竞争,故均衡结果为两家公司都选择竞争性策略,每一家公司所获利润均为 600000 元。“囚徒困境”的内在根源是什么?举出现实中囚徒的困境的具体例子。答:内在根源是个体之间存在行为和利益相互制约的博弈结构中,个体理性与集体理性的矛盾。 3、假设古诺的双寡头模型中双寡头面临
5、如下一条线性需求曲线: P=30-Q 其中 Q为两厂商的总产量,即 Q=Q1+Q2。 再假设边际成本为零,即 MC1=MC2=0 解释并讨论此例的纳斯均衡,为什么其均衡是一种囚徒困境。 厂商 1 的总收益 TR1 由下式给出: 厂商 1 的边际收益 MR1 为: MR1=30-2Q1-Q2 利用利润最大化条件 MR1=MC1=0,得厂商 1 的反应函数(reaction function)或反应曲线为: Q1=15-0.5Q2 (6-1) 同理可得厂商 2 的反应曲线为: Q2=15-0.5Q1 (6-2) 均衡产量水平就是两反应曲线交点 Q1 和 Q2 的值,即方程组 6-1 和 6-2 的
6、解。可以求得古诺均衡时的均衡产量水平为:Q1=Q2=10。 因此,在本例中,两个寡头的总产量 Q 为 Q1+Q2=20,均衡价格为 P=30-Q=10。 刚才我们讨论了两寡头厂商相互竞争时的均衡产量。现在我们放松第(6) 条不能串谋的假设,假定两寡头可以串谋。它们能共同确定产量以使总利润最大化。 这时,两厂商的总收益 TR 为: TR=PQ=(30-Q)Q=30Q-Q2 其边际收益 MR 为: MR=30-2Q 根据利润最大化条件 MR=MC=0,可以求得当 Q=15 时总利润最大。如果两厂商同意平分利润,每个寡头厂商将各生产总产量的一半,即Q1=Q2=7.5。其实,任何相加为 15 的产量
7、Q1 和 Q2 的组合都使总利润最大化,因此,把Q1+Q2=15 称为契约曲线,而 Q1=Q2=7.5 是契约曲线上的一个点。 我们还可以求得当价格等于边际成本时,Q1=Q2=15 ,各厂商的利润为零。 解释伯特兰德模型。 用“小偷与守卫的博弈”说明“激励悖论” 。 犯罪和防止犯罪是罪犯和警察之间进行博弈的一场游戏。警察可以加强巡逻,或者休息。犯罪者可以采取作案、不作案两种策略。如果罪犯知道警察休息,他的最佳选择就是作案;如果警察加强巡逻,他最好还是不作案。对于警察,如果他知道犯罪者想作案,他的最佳选择是加强巡逻,如果犯罪者采取不作案,自己最好去休息。当然,犯罪者和警察都不可能完全知晓对方将采
8、取的行动,因此他们都将估计对方采取某种行动的概率,从而决定自己要采取的行动。结果是,他们将以一定的概率随机地采取行动,这叫“混合策略” 。 我们可以简单地分析一下混合策略(对数字不感兴趣的读者可以不看下面一段) 。下面是犯罪者与警察的支付矩阵(假定犯罪者在警察休息时一定作案成功,在警察巡逻时作案一定会被抓住): 犯罪者 不作案 作案警 察 巡逻 0,0 2,-2 休息 2,0 -1,1这个矩阵的数字含义可以表示,警察巡逻,犯罪者不作案,双方都没有收益也没有损失;警察巡逻,犯罪者作案,警察因抓到罪犯受到表彰,得到效用 2 单位,罪犯被判刑丧失效用 2 单位;警察休息,犯罪者不作案,警察休息的很愉
9、快得到效用 2 单位,犯罪者没有收益也没有损失;警察休息,犯罪者作案,警察因失职被处分而丧失效用 1 单位,罪犯犯罪成功获得效用 1 单位。这个博弈是没有纳什均衡的。 但是,如果警察知道犯罪者以 p 的概率选择作案(不作案概率就为 1-p),他该怎样采取自己的行动?对警察而言,巡逻的预期效用为 0(1-p)+2p=2p,休息的预期效用为 2(1-p )-1p=2-3p。显然,当2p2-3p 即 p0.4 的时候, 警察最好选择巡逻;反之 2p0 即 q0.33 时,他的理性选择是作案,反之不作案。在这个博弈中,警察以 0.33 的概率巡逻 0.67 的概率休息,犯罪者以 0.4 的概率作案 0
10、.6 的概率不作案构成一个混合纳什均衡。 上述混合纳什均衡可以这样理解,如果警察以高于 0.33 的概率巡逻,犯罪者最好是躲避起来。犯罪者一旦躲避,警察就没有收获,于是降低巡逻的概率,于是犯罪者重新活跃,于是警察又提高巡逻概率从一个长期来看,两者的均衡将维持在警察以 0.33 的概率巡逻犯罪者以 0.4 的概率作案上面。现实中,我们看到,当严打的时候(警察出击的概率较高) ,犯罪分子便收敛一阵(降低作案概率) ;严打的时期一过,犯罪分子又开始兴风作浪,在不能容忍罪犯过分猖狂的时候,警界不得不再次开始严打。 在上述例子中,可能大家觉得警察和犯罪者都根据一定概率采取自己的行动不太好理解,那么可以尝
11、试这样理解他们:作案的犯罪者越多,那么出动的警察将会越多,作案的犯罪者越少,出动的警察将越少;反过来,出动的警察越多,作案的犯罪者就越少,出动的警察越少,作案的犯罪者就越多。极端地假设一个例子(它有助于我们的理解) ,警局有 100 名警察,犯罪集团有 100 名犯罪者,那么上例博弈中,警察以 0.33 的概率巡逻而犯罪者以 0.4 的概率作案这一纳什均衡可以理解为:在巡逻的警察少于 33 人时,犯罪集团最好派 40 名以上的犯罪者作案;在巡逻警察多于 33 人时,犯罪集团最好派 40 名以下的犯罪者作案;反过来,犯罪集团派 40 名以下犯罪者作案,警局最优选择出动 33 名以下的警察;犯罪集
12、团派40 名以上犯罪者作案,警局最优选择出动 33 名以上的警察。当然,如果犯罪集团倾巢出动,那么警察的选择也是全部出动,但警察一旦全部出动,犯罪者最好选择全部不作案,犯罪者一旦选择全部不作案,警察最好全部选择休息最后长期的均衡状态是,警局派 33名警察巡逻,犯罪集团派 40 个人作案。这可以解释现实中,为什么警界总安排有巡逻力量,而犯罪者也总保持一定的作案数解释“夫妻博弈”(battle of the sexes)”,并举商业案例说明。 “夫妻博弈”(battle of the sexes)的例子讲的是一对谈恋爱的男女安排业余活动,他们有二种选择,或去看足球比赛,或去看芭蕾舞演出。男方偏好足
13、球,女方偏好芭蕾,但他们宁愿在一起,不愿分开。表 6-6 给出了这个博弈的得益矩阵。在这个博弈中,如果双方同时决定,则有两个纳什均衡,即都去看足球比赛和都去看芭蕾演出。但是到底最后他们去看足球比赛还是去看芭蕾演出,并不能从中获得结论。如果假设这是个序列博弈,例如,当女方先作出选择看芭蕾演出时,男方只能选择芭蕾;当女方先选择了看足球比赛时,男方也只能选择足球。反之,当男方先选择了看足球比赛时,女方只能选择看足球比赛;当男方先选择了看芭蕾演出时,女方只能选择芭蕾。在这个博弈例子中,先行动者具有明显的优势,女方通过选择芭蕾造成一种既成事实,使得男方除了一起去看芭蕾之外别无选择。这就是我们在斯塔克尔伯
14、格模型中提到的先动优势(first mover advantage)。在那个模型中,先行动的厂商选择一个很高的产量水平,从而使它的竞争对手除了选择小的产量水平之外没有多大的选择余地。斯塔克尔贝里(1934)提出一个双头垄断的动态模型,其中一个支配企业(领导者) 首先行动,然后从属企业(追随者)行。比如在美国汽车产业发展史中的某些阶段,通用汽车就扮演过这种领导者的角色(这一例子把模型直接扩展到允许不止一个追随企业,如福特、克莱斯勒等等) 。根据斯塔克尔贝里的假定,模型中的企业选择其产量,这一点和古诺模型是一致的(只不过古诺模型中企业是同时行动的,不同于这里的序贯行动博 弈 论 习 题 一、判断
15、1、纳什均衡即任一博弈方单独改变策略都只能得到更小利益的策略组合。错,只要任一博弈方单独改变策略不会增加得益,策略组合就是纳什均衡了。本题说的是严格纳什均衡。 2、若一博弈有两个纯战略纳什均衡则一定还存在一个混合战略纳什均衡。对的,NE 的基本性质之一奇数性所保证的。 3、博弈中混合策略纳什均衡一定存在,纯战略的不一定存在。对4、上策均衡一定是帕累托最优的均衡。错,囚徒困境, (坦白,坦白)是上策均衡但不是帕累托最优。 5、在动态博弈中,因为后行为的博弈方可以先观察到对方行为后再做选择,因此总是有利的。错,先动优势 6、动态博弈本身也是自己的子博弈之一。错,根据子博弈的定义,整个博弈本身不是自
16、己的子博弈。 7、如果动态博弈的一个策略组合不仅在均衡路径上是纳什均衡,而且在非均衡路径上也是纳什均衡,就是该动态博弈的一个子博弈完美纳什均衡。对, 8 逆推归纳法并不能排除所有不可置信的威胁、 错,逆推归纳法最基本的特征就是能排除动态博弈中所有不可信行为,包括不可信威胁和不可信承诺。 9、颤抖手均衡与第二章的风险上策均衡都是在有风险和不确定情况下的稳定策略组合,因为她们本质上是一样的。错,区别很大。前者是针对很小的犯错误导致的偏离概率的均衡概念,对博弈方的理性假设与完全理性假设基本接近,且本身是纳什均衡。 10、有限次重复博弈的子博弈完美纳什均衡每次重复均采用的都是原博弈的纳什均衡。错,对于
17、有两个以上纯策略纳什均衡博弈的有限次重复博弈,SPNE 在前面某些次重复时采用的可以不是原博弈的 NE,例如许多出发策11、有限次重复博弈的子博弈完美纳什均衡的最后一次重复必定是原博弈的一个纳什均衡。对,因为最后一次重复就是动态博弈对的最后一个阶段,根据 SPNE 的要求,博弈方在该阶段的选择必须构成纳什均衡。最后一次博弈就是原博弈本身 12、无限次重复博弈的均衡解一定优于原博弈均衡解的得益。错,对于严格竞争的零和博弈或者不满足合作条件的其他博弈来说,无限次重复博弈并不意味着效率的提高,得益不一定高。 13、无限次重复古诺产量博弈不一定会出现和谋生产垄断产量的现象。对,出现这个现象是有条件的,
18、主要是厂商的长远利益要有足够的重要性,由远期利益的贴现率反映。 14、如果博弈重复无限次或每次结束的概率足够小,而得益的时间贴现率 A 充分接近于 1,那么任何个体理性的可实现得益都可以作为子博弈完美纳什均衡的结果出现。对,是无限次重复博弈民间定理的结论。 15、触发策略所构成均衡都是子博弈完美纳什均衡。错误,触发策略本身并不能排除重复博弈中不可信的威胁或承诺,因此由触发策略构成的均衡不一定是 SPNE. 16、所有 博弈方都有关于得益的信息,至少部分博弈方缺乏博弈进程信息的动态博弈,称为完全但不完美信息动态博弈。对,定义 17、不完美信息动态博弈中的信息不完美性都是客观因素造成的。错,有些事
19、故意隐瞒自己的行为。 18、在完全但不完美信息博弈中,若不存在混合策略,并且各博弈方都是主动选择并且行为是理性的,则不完美信息从本质上说是“假的” 。对, 19、子博弈可以从一个多节点信息集开始。错,在一个子博弈中出现的必须是完整的信息集,由于多节点信息集开始的博弈必然分割一个信息集,一次不可能是个子博弈。 20、不完美信息是指至少某个博弈方在一个阶段完全没有博弈进程的信息。错,不完美信息是指没有完美信息而非完全没有信息。 21、海萨尼转换可以把不完全信息静态博弈转换为不完美信息动态博弈,说明有了还萨尼转换不完全信息静态博弈和一般的不完美信息动态博弈是完全等同的。错, 22、完全信息静态博弈中
20、的混合战略可以被解释成不完全信息博弈的纯策略贝叶斯纳什均衡。对 23、证券交易所的集合竞价交易本质上就是一种双方报价交易。对, 24、静态贝斯博弈中之所以博弈方需要针对自己的所有可能类型都设定行为选择,而不是只针对实际类型设定行为选择,是因为能够迷惑其他交易方,从而可以获得对自己更有利的均衡。错误,是因为其他博弈方必然会考虑这些行为选择并作为他们自己选择行为的依据。即使博弈方自己不设定针对自己所有类型的行为选择,其他博弈方也会替他考虑,弄清楚其他博弈方对自己策略的判断。 25、鼓励响应的直接机制能保证博弈方都按照他们的真实类型行为并获得理想结果。错,只保证博弈方说出自己的真是类型,博弈方不直接
21、选择行为也不保证根据真是类型行为,更谈不上一定能实现最理想的结果。因为直接机制的结果常常是带随机选择机制的,并不一定理想。 26、古玩市场的交易中买卖双方的后悔都来自于自己对古玩价值判断的失误,若预先对价值的判断是正确的,那么交易者肯定不会后悔。错误,仍然可能后悔,因为古玩交易的价格和利益不仅取决于古玩的实际价值和自己的估价,还取决于对方的估价和愿意接受的成交价格,因此仅仅自己做出正确的估价并不等于实现了最大的潜在利益。 27、只要声明方和行为方的利益不是对立的,那么口头声明肯定能传递一些信息。错,不一定,因为可能声明方的类型对行为方利益无关,或者行为方的行为对声明方的利益无关。 28、教育程
22、度在劳动力市场招聘员工时受到重视的理由是,经济学已经证明教育对于提高劳动力素质有不可替代的作用。错,经济学并没有证明。 教育还有重要的信号机制的作用,可以反映劳动力的素质。 29、不完全信息动态博弈分析的基本方法也是逆向归纳法。错误,这种博弈的基本均衡概念是完美贝叶斯均衡,其中的判断与博弈方的策略选择有关,与策略的确定常常是交叉的,无法从最后一阶段开始直接确定博弈方的策略选择。 30、运用海萨尼转换后,不完全信息动态博弈与完全但不完美信息动态博弈基本上是相同的。对,本质上是相同的,是一种问题的不同理解方法。判断下列说法正确: (1 )斯塔克博格产量领导者所获得的利润的下限是古诺均衡下它得到的利
23、润。 答:(1)正确。在斯塔克博格模型中,领导者可以根据跟随者的反应曲线来制定自己的最优产量。其利润一定不会小于古诺均衡下的利润,否则,领导者将采取古诺博弈中双方同时行动的策略而获得古诺均衡的利润。(2)由于两个罪犯只打算犯罪一次,所以被捕后才出现了不合作的问题即囚徒困境。但如果他们打算重复合伙多次,比如说 20 次,那么对策论预测他们将采取彼此合作的态度,即谁都不招供。 答:错误。只要两囚犯只打算合作有限次,其最优策略均为招供。比如最后一次合谋,两小偷被抓住了,因为将来没有合作机会了,最优策略均为招供。回退到倒数第二次,既然已经知道下次不会合作,这次为什么要合作呢。依此类推,对于有限次内的任
24、何一次,两小偷均不可能合作。简要评论博弈论在微观经济学运用中的优缺点。 答:博弈论是描述和研究行为者之间策略相互依存和相互作用的一种决策理论。它被广泛应用于政治、外交、军事、经济等研究领域,但在微观经济学中的应用是最成功的。博弈论的研究方法和特征与经济学结合得非常紧密。它强调个人理性,即在给定的约束条件下追求效用最大化。但博弈论又比传统的经济学更进一步,它研究的不是面临非人格化的价格参数下的决策问题,而是研究效用随各个主体的行为改变而改变的效用最大化问题。除了国际贸易、金融、拍卖等经济领域,博弈论在企业理论特别是寡头竞争研究方法方面做了大量的有益工作。 20 世纪 80 年代以来,博弈论开始出
25、现在西方经济学的教科书中,都将其作为经济学研究的最新成果与前沿。特别是产业组织理论方面的教材,几乎都是以博弈论为基础的。博弈论反映了经济学的研究对象越来越个体化、微观化;反映了经济学越来越重视人与人之间关系与相互作用的研究,特别是协调人际的利益与冲突的最佳制度安排倾向;反映了经济学越来越重视信息,即接近现实的有关信息不完全对个人选择与制度安排及其影响的倾向。总之,博弈论在经济学中的广泛应用,大大提高了经济学对现实的解释能力。 应该看到,博弈论在微观经济学运用中还存在许多疑难问题。它无法提供唯一解,无法完整地探讨个人发展与社会发展之间的相互依存关系。现有的博弈论结构可强有力地证明“合作比不合作好”这一命题,但无法解释清楚在现实中冲突与合作之间的复杂关系,认为个人组成的集团会采取合作行动以实现他们共同的利益。实际上,除非一个集团中的人数很少或者存在强制或其他某些特殊手段以使个人按照他们的共同利益行事,有理性的、寻求个人利益最大化的个人不会采取行动以实现共同的利益。即使他们采取行动实现共同的利益之后都能获益,他们也仍然可能不会自愿地采取合作行动以实现共同利益的目标