1、第四章 重复博弈,本章介绍基本博弈重复进行构成的重复博弈。虽然形式上是基本博弈的重复进行,但重复博弈中博弈方的行为和博弈结果却不一定是基本博弈的简单重复,因为博弈方对于博弈会重复进行的意识,会使他们对利益的判断发生变化,从而使他们在重复博弈过程中的行为选择受到影响。这意味着不能把重复博弈当作基本博弈的简单叠加,必须把整个重复博弈过程作为整体进行研究。,本章分三节,4.1 重复博弈引论 4.2 有限次重复博弈 4.3 无限次重复博弈,4.1 重复博弈引论,4.1.1 为何研究重复博弈 4.1.2 基本概念,4.1.1 为何研究重复博弈,经济中的长期关系 人们的预见性 未来利益对当前行为的制约 长
2、期合同、回头客、长客和一次性买卖的区别 有无确定的结束时间,4.1.2 基本概念,有限次重复博弈:给定一个基本博弈G(可以是静态博弈,也可以是动态博弈),重复进行T次G,并且在每次重复G之前各博弈方都能观察到以前博弈的结果,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T)的“原博弈”。G(T)中的每次重复称为G(T)的一个“阶段”。 无限次重复博弈:一个基本博弈G一直重复博弈下去的博弈,记为G( ) 策略:博弈方在每个阶段针对每种情况如何行为的计划 子博弈:从某个阶段(不包括第一阶段)开始,包括此后所有的重复博弈部分 均衡路径:由每个阶段博弈方的行为组合串联而成,重复博
3、弈的得益,4.2 有限次重复博弈,4.2.1 两人零和博弈的有限次重复博弈 4.2.2唯一纯策略纳什均衡博弈的有限次重复博弈 4.2.3多个纯策略纳什均衡博弈的有限次重复博弈 4.2.4 有限次重复博弈的民间定理,4.2.1 两人零和博弈的有限次重复博弈,零和博弈是严格竞争的,重复博弈并不改变这一点。 以零和博弈为原博弈的有限次重复博弈与猜硬币博弈的有限次重复博弈一样,博弈方的正确策略是重复一次性博弈中的纳什均衡策略。,4.2.2唯一纯策略纳什均衡博弈的 有限次重复博弈,定理:设原博弈G有唯一的纯策略纳什均衡,则对任意整数T,重复博弈 G(T)有唯 一的子博弈完美纳什均衡,即各博弈方每个阶段都
4、采用G的纳什均衡策略。各博弈方在G(T)中的总得益为在G中得益的T倍,平均得益的与原博弈G中的得益。,有限次重复削价竞争博弈,有唯一纯策略纳什均衡 (70,70) 有限次重复的结果仍然是 (低价,低价),4.2.3多个纯策略纳什均衡博弈的 有限次重复博弈,触发策略:两博弈方先试探合作,一旦发现对方不合作则也用不合作报复博弈方1:第一次选h;如第一次结果为(H,H),则第二次选M,否则选L 博弈方2:同博弈方1,两市场博弈的重复博弈(重复两次),(A,B)+(A,B) OR (B,A)+(B,A)(1,4)(4,1) 连续两次采用混合策略(2,2) (A,B)+(B,A) OR (B,A)+(A
5、,B)(2.2,2.5)轮换策略 一次纯策略+一次混合策略(1.5,3)(3,1.5),重复博弈不同策略、均衡及一次性博弈得益比较,不同策略组合、均衡得益图示,4.2.4 有限次重复博弈的民间定理,个体理性得益:不管其它博弈方的行为如何,一博弈方在某个博弈中只要自己采取某种特定的策略,最低限度保证能获得的得益 可实现得益:博弈中所有纯策略组合得益的加权平均数组 定理:设原博弈的一次性博弈有均衡得益数组优于w,那么在该博弈的多次重复中所有不小于个体理性得益的可实现得益,都至少有一个子博弈完美纳什均衡的极限的平均得益来实现它们,4.3 无限次重复博弈,回顾上节内容:重复博弈是一种特殊的动态博弈,对
6、应现实中具有相对稳定性的长期关系。因此必须考虑长期利益关系,所以博弈方的行为就可能表现出与一次性博弃不同的特点。重复博弈主要包括有限次重复博弃和无限次重复博弈,当有限次重复博弈的重复次数较多或是无限次重复博弈时,必须考虑先后得到利益的价值差别。,4.3 无限次重复博弈,有限重复博弈中,对于无纯策略纳什均衡的原博弈来说,不可能产生比一次性博弈更理想的结果,因为原博弈各博弈方的利益是严格对立的。重复博弈不会改变这种利益关系。对于有惟一纯策略纳什均衡博弃的重复博弈来说,结论是在有限次重复博弈中结果也不会更理想,因为其子博弈完美纳什均街是各博弈方在每次重复时都采用原博弃的纳什均衡。,4.3 无限次重复
7、博弈,重复的囚徒困境悖论和连锁店悖论(塞尔顿,1978) 前面讨论的两种情况的结果并不比一次性博弈结果更好。对于有多个纯策略纳什均衡博弈的重复博弈来说,有限次重复博弈有可能实现一次性博弈潜在的合作利益和提高博弈效率,有限次重复博弈的民间定理也进一步给出了更强的结论等。 触发策略,4.3 无限次重复博弈,对于无限次重复博弈,两人零和博弈、惟一纯策略纳什均衡博弈、以及其他问题的结果到底如何呢? 区别:根据我们对有限次重复博弈的分析可知,存在最后一次重复正是破坏重复博弈中博弈方利益和行为的相互制约关系,使重复博弈无法实现更高效率均衡的关键间题。因此无限次重复博弈与有限次重复博弈的上述区别至关重要。与
8、有限次重复博弈的另一个关键差异是,无限次重复博弈不能忽视不同时间得益的价值差异和贴现问题,必须考虑后一期得益折算成前一期得益的贴现系数,对博弈方选择和博弈均衡的分析必须以平均得益或总得益的现在值为根据。,4.3 无限次重复博弈,4.3.1 两人零和博弈的无限次重复博弈 4.3.2 惟一纯策略纳什均衡博弈的无限次重复博弈 4.3.3 无限次重复古诺模型 4.3.4 有效工资率,4.3.1 两人零和博弈的无限次重复博弈,两人零和博弈无限次重复的所有阶段不能改变原博弈中博弈方之间在利益上的对立关系,也不会创造出潜在的合作利益,因此博弈方仍然是每次重复都根据当时的最大利益行为,会一直重复原博弈的混合策
9、略纳什均衡。 不能采用逆推归纳法证明,4.3.2唯一纯策略纳什均衡博弈 的无限次重复博弈,囚徒困境式博弈的无限次重复(两寡头削价竞争博弈) 1、帕累托意义上的 最佳组合 2、不是效率最高的 策略组合该博弈一次性博弈均衡是都采用低价,是囚徒困境型博弈,有限次博弈也不能实现合作。,无限次重复两寡头削价博弈,在这个博弈的无限次重复博弈中,我们假设两博弈方都采用如下触发策略:第一阶段采用H,在第t阶段,如果前t一1阶段的结果都是(H,H),则继续采用H,否则采用L。也就是说,双方在无限次重复博弈中都是先试图合作,第一次无条件选H,如果对方采取的也是合作态度,则坚持选H;一旦发现对方不合作(选L),则用
10、以后永远选L报复。,无限次重复两寡头削价博弈,触发策略:第一阶段采用H,如果前t-1阶段的结果都是(H,H),则继续采用H,否则采用L。如果博弈方2采用L,总得益现值为如果博弈方2采用H,总得益现值为其中V为博弈方2在该重复博弈中每阶段都能采用最佳选择的总得益现在值。 因此当 时,博弈方2采用H策略,否则采用L.,无限次重复两寡头削价博弈,当 时,博弈方2对博弈方1触发策略的最佳反应是第一阶段采用H。由于从第二阶段开始的无限次重复博弈,与从第一阶段开始的无限次重复博弈是完全相同的,因此博弈方第二阶段的选择必然也是H,第三阶段也同样。依次类推,只要博弈方1采用前述触发策略,那么博弈方2的最优选择
11、就始终是H。当然,如果博弈方l偏离H,博弈方2也必须用L来报复。这就证明了双方都采用上述触发策略是一个纳什均衡。,两寡头削价竞争无限次重复博弈的民间定理,在有限次重复博弈中只有在原博弈有多个纯策略纳什均衡的情况下会存在的合作,在无限次重复博弈的情况下只要原博弈有一个纳什均衡就可能存在。 其实,与上述结论相对应的,我们还有如下结论:在有限次重复博弈中,针对有多个纯策略纳什均衡博弈重复博弈的民间定理,在无限次重复博弈中对有惟一纯策略纳什均衡的博弈也是成立的。当然两个民间定理的表达略有不同。,两寡头削价竞争无限次重复博弈的民间定理,厂商2 得益,厂商1得益,4.3.3 无限次重复古诺模型,博弈方的行
12、为选择越多,重复博弈的路径也越多,在无限次重复博弈中实现较高效率均衡的机会也越多。 假定: 设两厂商无固定成本,边际成本都为2。 一次博弈存在惟一的纳什均衡(2,2)。即两厂商都生产2单位产量,该产量也称为“古诺产量”,用 表示。如果该市场是一家厂商垄断,那么最佳垄断产量为 ,纳什均衡的总产量4大于垄断产量3。如果两厂商各生产垄断产量的一半1.5,则两厂商的得益都会增加,但这在一次性静态博弈中不可能实现,在有限次重复博弈中也不可能实现。,4.3.3 无限次重复古诺模型,在无限次重复古诺模型中,当贴现率 满足一定条件时,两厂商采用下列触发策略构成一个子博弈完美纳什均衡:在第一阶段生产垄断产量的一
13、半1.5;在第 t 阶段,如果前 t-1 阶段结果都是(1.5,1.5),则继续生产1.5,否则生产古诺产量 =2。双方都采用上述触发策略的博弈路径为每阶段生产产量(1.5,1.5),双方每阶段的得益都是 。,设厂商1已采用该触发策略,若厂商2也采用该触发策略,则每期得益4.5,无限次重复博弈总得益的现值为:如果厂商2偏离上述触发策略,则他在第一阶段所选产量应为给定厂商1产量为1.5时,自己的最大利润产量,即满足:解得 ,此时利润为5.0625,高于触发策略第一阶段得益4.5。,但从第二阶段开始,厂商1将报复性地永远采用古诺产量2,这样厂商2也被迫永远采用古诺产量,从此得利润4。因此,无限次重
14、复博弈第一阶段偏离的情况下总得益的现值为:当上述策略是厂商2对厂商1的同样触发策略的最佳反应,否则偏离是最佳反应。,低水平合作 当 时上述触发策略不是无限次重复博弈的纳什均衡,更不是子博弈完美纳什均衡。但这并不是说当 时,两厂商就一定只能每阶段都采用古诺产量,实现每阶段结果为原博弈的低效率纳什均衡的得益。 其实,各厂商的产量可以控制在垄断产量的一半和古诺产量之间的某个水平,我们以 为基础构造一中双方共同采用的触发策略: 在第一阶段生产 ;在第t阶段,如果前t-1阶段的结果都是 ,则继续生产,否则生产古诺产量 =2 。 双方都采用该触发策略时均衡路径为每阶段都是 ,两厂商的得益都是无限次重复博弈
15、得益的现在值为,如厂商2第一阶段偏离,并根据厂商1的产量 决定自己该阶段的最大利润产量,则该产量必满足:得益为:但从第二阶段开始,厂商1报复,将采用古诺产量 ,厂商2也将一直采用古诺产量2。,得益将一直为: 这样无限次重复得益的现值为:只有当,也就是说,对于给定的 水平,它能够支持的具有稳定的最低 “合作”产量 满足,加大惩罚力度和提高合作水平就是在条件比较宽松的触发策略中,我们也可能构造其他同样也能实现够效率的子博弈完美那是均衡。第一阶段生产垄断产量的一半 ;在第t阶段,如果第t-1阶段的结果为 ,则生产 ,如果第t阶段的结果为(x,x),也生产 ,否则生产x。上述x是比古诺产量更高的待定惩
16、罚性高产量,因为在本策略中惩罚不是永久的,采用古诺产量不足以约束对方的行为。,胡萝卜加大棒策略双方如果都采用上述策略 ,双方每阶段都得到垄断利润的一半 ,无限次重复博弈得益的现在值为 如果厂商2在第一阶段偏离,采用偏离产量为 ,则必有,因此得到第二阶段厂商1开始惩罚,因此两厂商都采用x,从第三阶段开始将都回归到原产量 。 厂商2第二阶段的得益为:,第一阶段偏离得到的好处与第二阶段得到的惩罚比较,石油输出国组织的例子 根据上面对无限次重复古诺模型的分析,我们知道OPEC成员国之间的合作是有可能出现的,也就是说限产计划是有可能成功的。那么,现实中DPEC成员国的实践结果是否支持上述结论呢?从OPE
17、C成员主观期望的角度判断,可知OPEC在限产博弈中确实是既有成功的时期,也有很不成功的时期。,从成功的时期看,除了无限次重复博弈提供了形成合作的条件以外,主要有OPEC协调作用的因素;有最大成员国带头作用的因素;有海湾战争的影响和世界石油需求上升的因素等。 从不成功的时期看,则有OPEC成员国自身理性和决策能力的问题,需要学习博弈和建立相互信任过程的因素;有部分成员国石油资源趋于枯竭,对他们来说重复博弈次数有限,长期利益的制约作用减弱的因素;有非OPEC国家竟争压力的因素;有成员国之间利益不平衡,部分国家觉得限额不公平,从而不愿合作的因素;有一些国家因为财政紧张,从而杀鸡取卵不考虑长期利益的因
18、素;也有近年世界石油需求减少,市场情况发生较大变化的因素等。,4.3.4 有效工资率(动态博弈),模型设定:首先厂商选择工资率为 ,然后工人选择接受或拒绝。如果拒绝,则他作个体户得到收入 小于 ,如果接受 ,则工人选择努力工作(负效用 )还是偷懒(无负效用)。厂商只能看到产量高低,高产量为 ,低产量0。工人努力工作时一定是高产量 ,不努力时却并不一定是0,而是高产量 的概率为 ,低产量0的概率为 。工人努力工作时,厂商得益为 ,工人得益为 ; 工人偷懒时,厂商期望得益为 ,工人得益为 。,考虑如下的触发策略:,厂商在第一阶段给工资率 ,在第t阶段,如果前面t-1阶段结果都是 则继续给 ,否则从
19、此永远是 。工人的策略是如果 则接受,否则宁愿作个体户得到 ,并在以前各期结果都是 和当前工资率为 时努力工作,否则偷懒。设厂商已采用上述触发策略。由于 ,工人接受工作是最佳反应。用 记工人努力工作时无限次重复博弈得益的现值,则 即,用 记工人选偷懒时无限重复博弈得益的现值,则:即因此当 即 时,努力是工人的最佳选择。反过来,设工人已采用上述触发策略。若厂商给的工资率满足上式条件,并且威胁一旦产量降低就解雇工人,则各阶段的得益为 ,无限次重复博弈得益现值为。若不愿给 ,则解雇工人,以后得益为0。因此只要 ,厂商选择前述触发策略就是最佳反应。,综上所述,在满足的条件下,双方的触发策略构成一个纳什均衡。而上述两式实际上意味着即工人努力的产出扣除努力负效用后的剩余,必须不小于工人做个体户的收入即机会成本,加上一定比例的取决于努力负效用、贴现系数和偷懒可能得高产量概率的附加部分。最后这个不等式正是存在有效工资率,工作激励有效的基本条件。,