博弈论（第四章）.ppt-道客多多

资源描述

1、谢富纪 2009年3月,1,第四章重复博弈,重复博弈（Repeated Games）指基本博弈重复进行构成的博弈过程。而且重复博弈不是基本博弈的简单叠加，必须把整个重复博弈过程作为整体进行研究。重复博弈与静态博弈和动态博弈都有关系。,谢富纪 2009年3月,2,有限次重复博弈：给定一个基本博弈G（可以是静态博弈，也可以是动态博弈），重复进行T次G，并且在每次重复G之前各博弈方都能观察到以前博弈的结果，这样的博弈过程称为“G的T次重复博弈”，记为G（T）。而G则称为G（T）的“原博弈”。 G（T）中的每次重复称为G（T）的一个“阶段”。,1.重复博弈引论,谢富纪 2009年3月,3,无限次重复

2、博弈：如果一个基本博弈G一直重复博弈下去，这样的重复博弈我们称为”无限次重复博弈“，记为G（）。随机结束的重复博弈：一种特殊的重复博弈问题，即重复博弈的次数虽然是有限的，但重复的次数或博弈结束的时间却是不确定的。,1.重复博弈引论,谢富纪 2009年3月,4,1.重复博弈引论,虽然重复博弈每次重复的条件、规则、内容都相同，但由于有长期利益的存在，因此各博弈方在当前阶段要考虑到后面阶段不能引起其他博弈方的对抗、报复或恶性竞争，即不能像一次静态博弈中那样毫不顾及其他博弈方的利益。这样重复博弈就有了在一次性博弈中往往不可能实现的合作的可能性，实现了比一次性博弈更有效率的均衡。这就是重复博弈与构成这些

3、重复博弈的一次性博弈之间的重要区别。,谢富纪 2009年3月,5,1.重复博弈引论,可信性同样是一个重要的概念，即子博弈完美性仍然是判断均衡是否稳定可靠的重要依据。由于重复博弈中有长期利益对短期行为的制约作用，使一些在一次性博弈中不可信的威胁或诺言在重复博弈中成为可信的，从而使博弈的均衡、结果会出现更多的可能性。,谢富纪 2009年3月,6,重复博弈的策略：重复博弈中每个博弈方在每个阶段都必须行为，博弈方的一个策略就是在每个阶段（即每次重复），针对每种情况（以前阶段的结果）如何行为的计划。博弈方的一个策略意味着每次轮到其行为时针对每种可能情况如何选择的完整计划。子博弈：从某个阶段（不包括第一阶

4、段）开始，包括此后所有阶段的重复博弈部分。与子博弈有关的概念和结论，包括子博弈完美纳什均衡，以逆推归纳法为核心的子博弈完美纳什均衡分析及相关结论，都可以推广到重复博弈中。,1.重复博弈引论,谢富纪 2009年3月,7,重复博弈的路径：每个阶段的阶段博弈结果（原博弈的一个策略组合）依次连接而成，即由每个博弈方的行为组合串联而成。重复博弈的得益：重复博弈每阶段都有一组得益，因此重复博弈中各博弈方的得益应该是他们每阶段得益相加的总得益。重复博弈的平均得益：总得益除以博弈次数。,1.重复博弈引论,谢富纪 2009年3月,8,考虑时间价值的某博弈方重复博弈总得益现值为（有限次博弈） 1+ 2 + 2 3

5、 + T-1 T = t-1 t无限次重复博弈的总得益现值为： 1+ 2 + 2 3 + = t-1 t其中T 为重复博弈次数；是贴现系数； T 为第T次的得益。,1.重复博弈引论,谢富纪 2009年3月,9,平均得益：如果一常数作为重复博弈（有限次重复或无限次重复）各个阶段的得益，能产生与得益序列1 ，2，相同的现在值，则称为1 ，2，的 “平均得益”。无限次重复博弈必须考虑贴现问题。,1.重复博弈引论,由,得,谢富纪 2009年3月,10,随机结束的重复博弈的期望得益现值为： 1 2（1p）/（1r） 3 （1 p）2/（1r）2+ t （1P）t1/（1r）t1 t1 tp为停止重复

6、的概率；r为利率。这样就可以把与纯粹考虑时间价值的贴现率统一起来。,1.重复博弈引论,谢富纪 2009年3月,11,2.有限次重复博弈,两人零和博弈的有限次重复博弈猜硬币是一个两人零和静态博弈，双方根本不可能存在合作的可能。因为每次重复的结果都是一赢一输，得益相加得零。每个博弈方唯一正确的策略就是每次重复时都采用一次性博弈的纳什均衡策略。即各以0.5的概率随机选正面和反面的混合策略，重复博弈的结果是双方的平均得益和期望得益都为零。实际上，所有以零和博弈为原博弈的的有限次重复博弈与猜硬币博弈的有限次重复一样，博弈方的正确策略是重复一次性博弈中的纳什均衡。,谢富纪 2009年3月,12,有唯一纯策

7、略纳什均衡博弈的有限次重复博弈有限次重复博弈的囚徒困境博弈，可以理解成警察给两人两次交代的机会。,2.有限次重复博弈,谢富纪 2009年3月,13,因为重复博弈全过程是一种动态博弈过程，从第二阶段开始。此前的博弈已是既成的事实，而在此后又没有任何的后继阶段，因此实现本阶段最大利益是两博弈方在该阶段的唯一原则。结果是（坦白，坦白），双方得益为（-5，-5）。再看第一阶段。,2.有限次重复博弈,谢富纪 2009年3月,14,2.有限次重复博弈,该博弈唯一的纳什均衡仍是（坦白，坦白）。双方得益为（-10，-10）。,谢富纪 2009年3月,15,该博弈可能存在的潜在的合作利益，因为有限次重复博弈合作

8、有确定的期限，因此最终效率较高的合作结果并没有出现。定理：设原博弈G有唯一的纯策略纳什均衡，则对任意正整数T，重复博弈G（T）有唯一的子博弈完美纳什均衡，即各博弈方每个阶段都采用G的纳什均衡策略。各博弈方在G（T）中的总得益为在G中得益的T倍，平均得益等于原博弈G中的得益。该定理的证明要用到这样一个结论：在一个博弈中的每个博弈方的所有得益各自加上相同的数不会改变博弈的均衡。,2.有限次重复博弈,谢富纪 2009年3月,16,石油输出国组织的困境石油输出国组织作为世界石油寡头的组织，为了避免成员国独立决策造成囚徒的困境式对大家都不利的局面，维持高价以获得更多的利润，通过谈判确定了每个成员国日产

9、石油的最高限额。各成员国限额的总和将维持在一个较高的价格。如果各成员国都能严格遵守限额，则油价就会稳定在OPEC期望的水平上。各成员国的石油生产和出口是年年持续进行的，因此该问题可以看作是各成员国之间每年关于是否突破限额的一个重复博弈。,2.有限次重复博弈,谢富纪 2009年3月,17,实际结果只能是实现对每个成员国都并不有利的高产、低价、低利润的纳什均衡。各成员国每年都突破限额，甚至成倍超产，使油价下跌。原因：某些成员国石油资源逐渐枯竭，这个遵守的和突破限额的博弈完全不是一个无限重复博弈。不少非OPEC国家加入石油市场。OPEC成员国之间地位不平衡，限额不公平。有的国家有政治、军事、经济等方

10、面的原因。,2.有限次重复博弈,谢富纪 2009年3月,18,削价竞争博弈,2.有限次重复博弈,寡头2高价低价寡高价头 1 低价,由于两个寡头在同一市场的竞争可以看作维持很长时间，因此可以看作是重复博弈。然而结果是令人遗憾的。,谢富纪 2009年3月,19,2.有限次重复博弈,两个悖论重复囚徒困境悖论。囚徒困境博弈重复较多次数后结果会如何？重复次数较大的实验结果通常与理论结果不一致。连锁店悖论。一个在N个市场上都开设有连锁店的企业，对于各个市场的竞争者是否应该加以打击的策略选择。这相当于一个N次的重复博弈，每次是一个先来后到博弈。唯一的子博弈完美纳什均衡“竞争者先进入，先占领市场的连锁店不

11、打击”是重复博弈的纳什均衡。但现实往往不是这样。,谢富纪 2009年3月,20,2.有限次重复博弈,问题：较多阶段的重复博弈中逆推归纳法是否适用？已经讨论的两种情况：不存在纯策略纳什均衡；只有唯一纳什均衡。这两类博弈并不能给博弈方带来比一次性博弈更好的结果（平均来说）。,谢富纪 2009年3月,21,有多个纳什均衡博弈的重复博弈三价博弈的重复博弈,2.有限次重复博弈,厂商2 H M L厂 H商 M1 L,谢富纪 2009年3月,22,该博弈有两个纯策略纳什均衡（M，M），（L，L）。在两次重复博弈中，双方策略为：博弈方1：第一次选H；如第一次结果为（H，H），则第二次选M，如第一次结果为

12、任何其他策略组合，则选L。博弈方2：第一次选H；如第一次结果为（H，H），则第二次选M，如第一次结果为任何其他策略组合，则选L。路径第一阶段选（H，H），第二阶段选（M，M）是子博弈完美纳什均衡。,2.有限次重复博弈,谢富纪 2009年3月,23,刚才的情况实际是双方试探合作，一旦发现对方不合作则也用不合作相报复的策略，称为触发策略（trigger strategy）。触发策略是重复博弈中实现合作和提高效率的关键机制。实际上可把原来两次博弈化成一个等价的一次性博弈。很容易可以得到其纳什均衡为（H，H）。如果该博弈重复许多次，结论是类似的，子博弈完美纳什均衡为：除了最后一次重复外，每次都采用（

13、H，H），最后一次重复采用原博弈的纳什均衡（M，M）。当重复次数较多是，平均得益接近于一次性博弈中（H，H）的结果（5，5）。,2.有限次重复博弈,谢富纪 2009年3月,24,2.有限次重复博弈,触发机制在重复博弈中有很重要的作用，但有一个报复机制的可信性问题，因为报复别人时，自己也受到损失。,谢富纪 2009年3月,25,报复机制的可信性,2.有限次重复博弈,厂商2H M L 厂 H 商 M 1 L,触发策略中报复机制是一个很复杂的问题，受到相互预期等很多因素的影响。,谢富纪 2009年3月,26,触发策略实际上在不少情况下是非常可信的。如,2.有限次重复博弈,博弈方2H M L P Q

14、H 博 M 弈 L方 P1 Q,谢富纪 2009年3月,27,有四个纯策略纳什均衡：（M，M），（L，L），（P，P），（Q，Q）。在两次博弈中，两博弈方采取的触发策略：博弈方1：在第一阶段采取H，如果第一阶段的结果是（H，H），那么第二阶段采用M，否则采用P。博弈方2：在第一阶段采取H，如果第一阶段的结果是（H，H），那么第二阶段采用M，否则采用Q。上述触发策略组合构成该重复博弈的一个子博弈完美纳什均衡。,2.有限次重复博弈,谢富纪 2009年3月,28,两市场博弈的重复博弈,2.有限次重复博弈,厂商 2A B厂 A商 1 B,谢富纪 2009年3月,29,一次性博弈的纳什均衡为（A，B），

15、（B，A）。得益分别为（1，4）和（4，1）。此外该博弈还有一个混合策略纳什均衡：两厂商各以0.5的概率在A和B之间随机选择，双方期望得益是0.25 (3+4+1+0)=2。连续进行两次的重复博弈情况：连续两次都采用原博弈同一个纳什均衡，都是子博弈完美纳什均衡。两厂商轮流去两个市场也是子博弈完美纳什均衡。一次纯策略纳什均衡，另一次混合策略纳什均衡也是子博弈完美纳什均衡。,2.有限次重复博弈,谢富纪 2009年3月,30,本博弈中之所以不能或不能部分实现最佳结果（A，A），是因为在两次重复博弈中博弈方没有运用触发策略的条件或者说机会。后面的选择并不取决于第一次博弈的结果。,2.有限次重复博弈,谢

16、富纪 2009年3月,31,2.有限次重复博弈,厂商2 得益（1，4）（1.5，3）（3，3）（2.5，2.5）（2，2）（3，1.5）（4，1）厂商1得益,谢富纪 2009年3月,32,重复三次的情况，有了运用触发策略的条件。两厂商可分别运用以下触发策略。博弈方1：第一阶段选A；如果第一阶段结果是（A，A），则第二阶段选A，如果第一阶段结果是（A，B），则第二阶段选B；第三阶段无条件选B。博弈方2：第一阶段选A，第二阶段无条件选B，如果第一阶段结果是（A，A），则第三阶段选A；如果第一阶段结果是（B，A），则第三阶段选B。三次重复博弈的路径是（A，A）到（A，B）再到（B，A）。,2

17、.有限次重复博弈,谢富纪 2009年3月,33,进一步增加两市场博弈的重复次数，例如101次。如果厂商1采用触发策略“在前99次中都选A，但从其中的第二次开始一旦发现哪次的结果不是（A，A）则改为B 坚持到底，最后两次重复与三次重复博弈后两次重复的策略相同”；厂商2采用触发策略“前99次选A，但从其中的第二次开始一旦发现哪次的结果不是（A，A）则改为B 坚持到底，最后两次重复与三次重复博弈后两次重复的策略相同”。上述触发策略构成一个子博弈完美纳什均衡，双方每阶段的平均得益为（993+1+4） 101=2.99。,2.有限次重复博弈,谢富纪 2009年3月,34,民间定理（Folk Theore

18、m）：设原博弈的一次性博弈有均衡得益数组优于，那么在该博弈的多次重复中，所有不小于个体理性得益的可实现得益，都至少有一个子博弈完美纳什均衡的极限的平均得益来实现它们。,2.有限次重复博弈,谢富纪 2009年3月,35,2.有限次重复博弈,厂商1得益,厂商1得益,厂商2得益,（3，3）,（1，4）,（4，1）,0,（1，1）,谢富纪 2009年3月,36,2.有限次重复博弈,民间定理的意义在于保证这些得益有一定次数重复博弈的子博弈完美纳什均衡的平均得益可以实现它们或逼近它们。民间定理的结论可以帮助理解重复博弈的意义，帮助人们在重复博弈中更好地把握机会，设计和运用高效率的策略，建立相互的默契和信任

19、，从而争取更好的博弈结果。现实博弈结果还在很大程度上取决于博弈方对重复博弈性质的了解，以及博弈方的分析能力和相互信任等因素，特别是博弈方是否具有设计和实现轮换策略、触发策略的能力。,谢富纪 2009年3月,37,3.无限次重复博弈,无限次重复博弈：如果一个基本博弈G一直重复博弈下去，这样的重复博弈我们称为“无限次重复博弈”，记为G（）。对任意t阶段，博弈之前，所有博弈方都能看到前t-1阶段博弈的结果。与有限次重复博弈的重要区别：在有限次重复博弈中，存在最后一次重复正是破坏重复博弈中博弈方利益和行为的相互制约关系，使重复博弈无法实现更高效率均衡的关键。无限次重复博弈不能忽视不同时间得益的价值差异

20、和贴现问题。,谢富纪 2009年3月,38,3.无限次重复博弈,两人零和博弈的无限次重复博弈博弈中博弈方的利益关系是对立的，没有合作的潜在利益，重复博弈不会改变原博弈的利益对立关系，因此在无限次重复博弈中，博弈方每次都仍然重复原博弈的混合策略。,谢富纪 2009年3月,39,3.无限次重复博弈,有唯一纯策略纳什均衡的无限次重复博弈,谢富纪 2009年3月,40,一次性博弈的唯一纳什均衡为（L，L），双方得益为（1，1）。在有限次重复博弈中并不能实现效率较高的（H，H）。在较大时，两博弈方的如下策略构成一个子博弈完美纳什均衡：第一阶段采用H，在第t阶段，如果前t-1阶段的结果都是（H，H），则继

21、续采用H，否则采用L。这说明，在无限次重复博弈中，双方开始都试图合作，第一次无条件选择H，如果对方采取也是合作的态度，则坚持选H；一旦发现对方不合作，则以后永远选L报复。,3.无限次重复博弈,谢富纪 2009年3月,41,3.无限次重复博弈,在一次性博弈和有限次重复博弈都无法实现的囚徒困境型博弈中的潜在合作利益，在有限次博弈中只有在原博弈有多个纯策略纳什均衡的情况下会存在，在无限次重复博弈情况下，只要原博弈有一个纯策略纳什均衡就可能实现。结论：在无限次重复博弈中，针对有多个纯策略纳什均衡博弈的重复博弈民间定理，在无限次重复博弈中对有唯一纯策略纳什均衡的博弈也是成立的。,谢富纪 2009年3月,

22、42,3.无限次重复博弈,无限次重复博弈民间定理：设G是一个完全信息的静态博弈。用（e1，en）记G的纳什均衡的得益，用（x1，xn）表示G的任意可实现得益。如果xie i对任意博弈方i都成立，而足够接近1，那么无限次重复博弈G（，）中一定存在一个子博弈完美的纳什均衡，各博弈方的平均得益就是（x1，x n）。,谢富纪 2009年3月,43,3.无限次重复博弈,谢富纪 2009年3月,44,3.无限次重复博弈,无限次重复博弈古诺模型设一市场有1、2两家厂商，生产相同的产品。设厂商1的产量为q1，厂商2的产量为q2，则市场总产量为 Q = q1+ q2。设P为市场出清价格（可以将产品全部买出去

23、的价格），则P是市场总产量的函数 P = P(Q)= 8-Q。再假设两个厂商的生产都无固定成本，且每一单位产量的边际生产成本相等C1=C2=2。那么该博弈的一次性博弈存在唯一的纳什均衡（2，2），双方得益都是4，称之为古诺产量qc。而该问题的垄断产量为qm=3。,谢富纪 2009年3月,45,3.无限次重复博弈,在贴现率9/17时，两厂商的如下触发策略构成一无限次重复古诺模型的子博弈完美钠什均衡。在第一阶段生产垄断产量的一半1.5；在第t阶段，如果前t-1阶段的结果都是（1.5，1.5 ），则继续生产1.5，否则生产古诺产量qc=2。,谢富纪 2009年3月,46,3.无限次重复博弈,当 9

24、/17时，上述触发策略不可能是无限重复博弈的纳什均衡，更不是子博弈完美纳什均衡，但并不能说当 9/17时，两厂商就只能在每阶段都采用古诺产量，实现较差的每阶段结果为原博弈的低效率的纳什均衡。是否当较小时，两厂商产量可以维持低于古诺产量。考虑下面触发策略：在第一阶段生产q* (qm/2q*qc )；在第t阶段，如果前t-1阶段的结果都是(q*,q*)，则继续生产，否则生产古诺产量。,谢富纪 2009年3月,47,3.无限次重复博弈,接近于0， q* 接近古诺产量；接近于9/17， q* 接近qm/2。接近于0意味着将来的得益对博弈方没有实际意义，因此，他们更注重眼前利益；越大，将来利益越重要，

25、就能支持较低的子博弈完美钠什均衡产量q* ，当接近或超过于9/17时，就能支持最大效率的垄断产量。,谢富纪 2009年3月,48,3.无限次重复博弈,再考虑下面的策略：第一阶段生产垄断产量的一半qm/2 ；在第t阶段，如果第t-1阶段结果是(qm/2 , qm/2 ) ，则生产qm/2 ，如果第t-1阶段结果是（x，x ），也生产qm/2 ，否则生产x（ x 称为惩罚性高产量,比古诺产量qc更高的待定惩罚性高产量）。即如果两厂商之一偏离合作产量qm/2 ，另一方就开始惩罚，两厂商之一偏离（x，x ），也要受到另一方采用x 的惩罚，而如果两厂商在一阶段中都惩罚，则在下一阶段重新试图合作。,谢富纪

26、 2009年3月,49,4.有效工资率,首先由厂商选择工资率w，然后由工人选择接受或拒绝。如果工人拒绝，则他只能做个体户，收入为w0小于w；如果工人接受w，则工人还要选择努力（负效用为e）还是偷懒（无负效用）。假设厂商无法看出工人是否努力工作，只能看到产量的高低。设产量有高低两种情况，分别为y 0和0。再假设当工人努力时一定是高产量y，当工人不努力时，却不一定是低产量0，而是高产量y的概率为p，低产量的概率为1-p。因此低产量毫无疑问工人是在偷懒，但高产量却不能肯定工人努力。,谢富纪 2009年3月,50,4.有效工资率,假设厂商已经找到了最低的足以使工人努力工作的工资率w*，则可以在此基础上构成厂商和工人的下列触发策略：厂商的策略：在第一阶段给工资率w*，在第t阶段，如果前t-1阶段的结果都是（w*，y），则继续给w*，否则从此永远是w=0。工人的策略：如果w*w0则接受，否则宁愿做个体户，得w0，并在以前各期结果都是（w*，y）和当前工资率为w*时努力工作，否则偷懒。,谢富纪 2009年3月,51,4.有效工资率,努力工作是工人的最佳选择。,当,当,厂商选择前面触发策略是对工人触发策略的最佳反应。工资激励有效的基本条件为：,

展开阅读全文