收藏 分享(赏)

信息与博弈校通识课gen14251l.pdf

上传人:kuailexingkong 文档编号:1606788 上传时间:2018-08-10 格式:PDF 页数:47 大小:864.97KB
下载 相关 举报
信息与博弈校通识课gen14251l.pdf_第1页
第1页 / 共47页
信息与博弈校通识课gen14251l.pdf_第2页
第2页 / 共47页
信息与博弈校通识课gen14251l.pdf_第3页
第3页 / 共47页
信息与博弈校通识课gen14251l.pdf_第4页
第4页 / 共47页
信息与博弈校通识课gen14251l.pdf_第5页
第5页 / 共47页
点击查看更多>>
资源描述

1、第六讲 重复博弈 张少强 http:/ 信息与博弈 校通识课( GEN14251L) 重复博弈 (repeated game) 动态博弈的另一种特殊但是非常重要且常见的类型就是所谓的“重复博弈”。 重复博弈是指同样结构的博弈重复多次,其中的每次博弈称为“ 阶段博弈 ”( stage game)。 以“囚徒困境”为例,如果每次判刑不是很重,那么,两个囚徒在刑满释放之后再作案,作案之后再判刑,释放之后又作案,如此等等,他们之间进行的就是重复博弈,其中每次作案就是一个阶段博弈。 生活中重复博弈的例子 当你到菜市场去买菜,当你担心上当受骗而犹豫不决时,摊主便会对你说:“你放心好了,我天天在这里卖菜,不

2、会骗你的,如果菜不好你回来找我!”他强调自己“ 天天 ”在这里卖菜,你通常便会放下心与之成交。因为他这句话翻译成博弈论的语言就是“ 我跟你是重复博弈 ”。 而你到车站、旅游景点买东西往往质次价高,其原因就在于买卖双方 很少有“重复”博弈的机会 (一锤子买卖)。 生活中重复博弈的例子 在相互联系紧密的人际关系中,人们普遍比较注意礼节、道德, 因为“合作和协调”对 大家都有好处;但是,我们又常常见到这样的消息:在公共汽车上,两个陌生人会为一个座位争吵,为什么会发生这种事情?原因何在 ? 在公共汽车上,两个陌生人吵架,因为彼此知道这是“ 一次性博弈 ”,吵过了以后谁也不会再遇到谁;可是如果相互认识,

3、就会相互谦让,因为他们知道以后还有碰面甚至交往的可能,即使发生争吵,通常会在在争吵中留有余地,因为二人日后还会有“ 重复博弈 ”。 为什么研究重复博弈? 长期反复合作与竞争的关系存在( 例:两企业的长期竞争,长期协议,回头客 ) ; 长期关系比短期关系更加复杂,考虑当前也得兼顾未来 ; 一般动态博弈环环相扣;长期关系中 ,各个 阶段之间的相互 独立性 ;长期关系需要考虑“信誉”“信任” ; 重复博弈不是阶段博弈的简单叠加,必须把重复博弈过程作为整体进行研究。 基本概念 重复博弈是同样结构的博弈重复多次,每次为“阶段博弈”。 重复博弈可以分为“ 有限次 重复博弈”、“ 无限次 重复博弈”,“ 随

4、机结束 的重复博弈”。 注意 : 重复博弈与一般动态博弈的区别,每个阶段都有得益,每个阶段的博弈方和博弈内容都相同。 有限次重复博弈 给定一个基本博弈 G(可以是静态博弈也可以是动态博弈),重复进行 T次 G,并且在每次重复 G之前各博弈方都能观察到以前的博弈结果,这样的博弈过程称为“ G的 T次重复博弈”,记为 G(T)。而 G则成为 G(T)的“ 原博弈 ”, G(T)的每次博弈称为 G(T)的一个“ 阶段 ”。 无限次重复博弈 无限次重复博弈: 一个基本博弈 G一直重复博弈下去的博弈,用 G()表示。 如果某个重复博弈 没有可以预见的结束 时间,各博弈方主观上认为博弈会不断进行下去,就可

5、以看作是无限重复博弈。 随机结束的重复博弈: 重复的次数虽有限,但重复次数或博弈结束时间却是不确定的。 策略、子博弈 策略 :重复博弈环境下,参与人的策略非常复杂。一般地,我们定义参与人的一个策略是 在博弈的每个阶段针对 之前阶段的博弈结果而 制定的行动计划 ; 子博弈 :从某个阶段开始,包括此后所有的重复博弈部分,仍然可以用 逆向归纳法 来分析。对于有限重复博弈,可以寻找 子博弈完美均衡 。 均衡路径 : 由每个阶段博弈方的 行动组合 串联而成。重复博弈的路径数目是 : 行动组合数 的 T次幂。 重复博弈使博弈有了更多的可能,分析重复博弈就是要在这些路径中找出具有 稳定性的均衡路径 ,并分析

6、它们的效率意义。 重复博弈的支付 /收益 重复博弈中参与人的行动策略选择不可能只考虑本阶段的支付,必须兼顾其他阶段的支付,必须考虑整个重复博弈过程的总体情况。 总支付 /总收益 : 参与人各次重复支付的总和。 平均支付 /收益 : 总支付除以重复次数。 威胁与承诺 动态博弈中涉及的一个重要问题是,博弈过程中 威胁和承诺 如何影响博弈的进程。 重复博弈所关心的议题也与之相似: ( 1)将来可信的威胁或承诺如何影响到当前的行动? ( 2)在一次博弈中无法实现的均衡,在重复博弈中能否实现? 有限次重复 博弈分类 1. 两 人零和博弈的有限次重复博弈 2. 惟一 纯策略纳什均衡的有限次重复博弈 3.

7、多 个纯策略纳什均衡的有限次重复博弈 1. 两 人零和博弈的有限次重复 博弈 猜 硬币博弈 零和博弈是严格竞争的,重复博弈并不改变这一点。 重复零和博弈不会创造出新的利益。 -1, 1 1, -1 1, -1 -1, 1 正 面 反 面 猜硬币方 盖 硬 币 方 正 面 反 面 1. 两人零和博弈的有限次重复博弈 以 零和博弈 为原博弈的有限次重复博弈与猜硬币博弈的有限次重复博弈一样, 博弈方的正确策略是重复一次性博弈中的纳什均衡策略。 可用逆推归纳法来证明 可以推广到非零和或多个博弈方,但博弈方的利益严格对立,没有纯策略纳 什均衡的其他严格竞争博弈中 产生原因:利益关系严格对立,矛盾不可调和

8、 2. 惟一 纯策略纳什均衡的有限次重复博弈 情形一:惟一纯策略纳什均衡是帕累托效率意义上的最佳策略 组合; 情形 二:原博弈惟一的均衡没有达到帕累托效率,存在通过合作进一步提高效率的可能性,例如:囚徒困境 博弈。 考察下列 博弈 该博弈存在 唯一的 纳什 均衡 ,即(对抗, 对抗 )。 同时注意到,该博弈还存在一个 高效均衡 (合作,合作 ),高效均衡对应着一种 合作行为 。 为什么高效的均衡不是纳什均衡?如何保证这一高效均衡能够实现? 1 , 1 5 , 0 0 , 5 4 , 4 对抗 合作 对抗 合作 1 2 两次重复博弈 假设将上述博弈重复两次 ,用逆向归纳法,先找第二阶段的 纳什

9、均衡,再找第一阶段的纳什均衡。 第二阶段 1 , 1 5 , 00 , 5 4 , 4UDL R12第一 阶段 1 + 1 , 1 + 1 5 + 1 , 0 + 10 + 1 , 5 + 1 4 + 1 , 4 + 1UDL R12对抗 对抗 对抗 对抗 合作 合作 合作 合作 有限次重复博弈 运用 逆向归纳法 ,可以发现上述重复博弈的子博弈完美纳什均衡 为:在每次博弈中,参与人1都 选择“对抗”, 参与人 2都 选择“对抗” 。 这说明:在两次重复博弈中,高效的均衡仍无法实现 。 同样可证明:在 n阶段(有限次)重复 博弈 (即博弈重复 n次且每次博弈开始时,前面博弈的结果都已知 )中,高

10、效的均衡同样无法实现。 有限次重复的“囚徒困境”悖论 假定进行两次重复博弈,双方看到第一次博弈的结果后再进行第二次,最后支付是两阶段各自支付的和。 有限次重复的 “寡头削价竞争” 有唯一纯策略纳什均衡( 70, 70) 有限 次重复的结果仍然是(低价,低价) 为什么出现悖论? 每次人际交往其实都可以简化为两种基本选择:合作还是背叛。 在人际交往中普遍都存在 “囚徒困境 ”: 双方明知合作会带来双赢,但理性的自私和信任的缺乏缺导致合作很难形成。特别是一次性博弈必然加剧选择背叛的决心。背叛是个人的理性选择。缺导致集体的非理性。 现实中,如果多次重复博弈,人们可以通过 “长期的合作契约 ”和交往中来

11、纠正人们的短期行为。 (例如开会迟到? 8:00开会总有人迟到,即使为了防止迟到,故意通知 7:45开会,过段时间还是会有人迟到?必须对迟到的惩罚而不是浪费不迟到的人的时间 ) 逆向 归纳法出现的结果,现实发生的几率很小。 再看一个例子:连锁店悖论 假定在位者在不同的市场上有 20家连锁店,进入者试图进入这些市场。如果进入者进入了每一个市场,此时博弈就变成了 20次重复博弈。当进入者进入第 1个市场时,在位者应该如何反应呢? 潜在进入者 在位 者 进入 不进入 默许 商战 ( 0, 10) ( -2, 3) ( 5, 5) 连锁店悖论 逆向归纳,倒数第二阶段 子博弈完美纳 什均衡为: 在位者在

12、每一个市场选择默许,进入者在每一个市场选择进入。 潜在进入者 在位 者 进入 不进入 默许 商战 ( 0+5, 10+5) ( -2+5, 3+5) ( 5+5, 5+5) 2. 惟一 纯策略纳什均衡的有限次重复博弈 定理: 如果 阶段博弈 G有唯一 的纯策略纳什均衡 ,则对任意有限的 T,重复博弈 G(T)有唯一的子 博弈完美均衡解 ,即 G的 纳什 均衡 结果在每一个阶段重复进行 。总支付是原博弈的 T倍。 但是好像也有问题? 理论和实践的直觉矛盾 ; 现实中寡头之间的价格战并不十分普遍,是不容易重复打价格战的。 囚徒困境重复 200次,实验结果表明当一个囚徒选择抵赖,另一个坦白的话,下一

13、次博弈时,都会选择抵赖。 泽尔 腾在 1978年研究“连锁店悖论”发现,实际中,对开头几个市场进入者,在位者不计代价的打击。 上述问题的症结与此前讲的 蜈蚣博弈 类似,在于较多阶段的动态博弈中 逆向归纳法的适用性 。 其它解释 虽然 博弈次数有限,但是我们不知道具体是多少,类似一个无限次数的重复博弈类似于无限(例如:人的生命 ) 即使 我们知道准确的结束合作关系的时间,比如劳动合同常常有明确的时间期限,但我们并不是从上班第一天就开始偷懒,是因为面对足够长的合同期,偷懒被开除而损失如此长期的一笔工资收益是不划算的。所以,员工仍采取了合作的态度,但是的确可以发现,随着终止合同离开雇主的日期越来越近

14、,员工的努力程度在打折扣 有限次博弈开始起作用 了 这个 有限博弈中的合作或对抗会给你进入另外一个博弈带来影响 ,必须考虑自己的表现, 例如考虑应聘到 其他企业 工作的影响。 3. 多 个纯策略纳什均衡的有限次重复博弈 两市场博弈的重复博弈(重复两次) 0, 0 4, 1 1, 4 3, 3 厂 商 1 厂商 2 B A A B 两市场博弈 (A,B)+(A,B) (1,4) 或 (B,A)+(B,A) (4,1) 连续 两次采用 混合策略 (2,2) 轮换策略 (A,B)+(B,A) 或 (B,A)+(A,B)(2.5,2.5) 一次纯策略 +一次 混合策略 (1.5,3) 或 (3,1.5

15、) 平均收益: 此博弈有 2个纯策略纳什均衡 (1,4)和( 4,1) 和混合策略纳什均衡概率 (0.5, 0.5) 3. 多个纯策略纳什均衡的有限次重复博弈 考虑三次重复博弈各策略组合子博弈纳什均衡路径: 1.由 原博弈的纳什均衡组合而成的路径 ,如采取 轮换策略 (在上述的协调博弈中,双方轮换采取纯纳什均衡策略 ,路径为(A,B),(B,A),(A,B).) , 每阶段的平均支付为(4+1)/2=2.5, 高于混合策略的支付 2. 2. 触发策略: 博弈方首先采取合作行为,如果发现对方没有合作,那么在后续阶段的博弈中采取不合作策略进行惩罚。 若 触发策略 (第二阶段触发)的设计为: ( 1

16、)厂商 1的策略是第一阶段合作 A, 如果发现对方采取 B不合作,则第二阶段采取不合作的 B策略惩罚,否则第二阶段继续合作;第三阶段无条件采取 B策略。 ( 2)厂商 2的策略是第一阶段合作 A, 如果发现对方采取 B不合作,则后续两个阶段一直采取不合作的 B策略;如果发现对方采取合作 A, 则第二阶段采取不合作 B,第三阶段采取合作 A。 那子博弈路径为 (A,A), (A,B), (B,A)为子博弈纳什均衡。 0, 0 4, 1 1, 4 3, 3 厂 商 1 厂商 2 B A A B 两市场博弈 多 个纯策略纳什均衡的有限次重复博弈的收益范围 由于具有多个纳什均衡的重复博弈可以设计多种策略组合,因此存在许多收益差异很大的子博弈完美纳什均衡。在双方缺乏沟通的情况下,结果具有不确定性。 但是,可以设计 包含报复机制的触发策略 ,实现收益较高的均衡。 个体理性收益 :不管对方采取何种行动,只要自己的行动合理就可保证实现的收益。 可 实现收益 :各纯策略组合支付的平均收益。并不一定是均衡策略的组合收益。例如( 3,3)即每次均合作也是可实现的收益。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报