1、博弈论 The Game Theory,上海财经大学金融学院 韩其恒 ,参考书籍,施锡铨(2002),博弈论。上海财经大学出版社。 张维迎(1996),博弈论与信息经济学。上海人民出版社,上海三联书店, 美朱弗登博格,法让梯若尔(2003),博弈论。中国人民大学出版社 陈学彬(1999),宏观金融博弈分析。上海财经大学出版社。,经济学家梯若尔(Jean Tirole): “正如理性预期使宏观经济学发生革命一样,博弈论广泛而深远的改变了经济学家的思维方式。” 如果情况确实如此,对今天的经济学家来说,不懂得博弈论显然是不行了。,值得人们尊敬的人,在非合作博弈的均衡分析理论方面做出了开创性的贡献,对
2、博弈论和经济学产生了重大影响 。,约翰纳什, 1928年生于美国 1994年Nobel 经济学奖得主,在非合作博弈的均衡分析理论方面做出了开创性的贡献,对博弈论和经济学产生了重大影响 。,约翰海萨尼,1920年生于美国 1994年Nobel 经济学奖得主,在非合作博弈的均衡分析理论方面做出了开创性的贡献,对博弈论和经济学产生了重大影响 。,莱因哈德泽尔腾,1930年生于德国 1994年Nobel 经济学奖得主,背景,冯诺依曼(Von Neumann),摩根斯坦恩(Morgenstern)(1944),博弈论和经济行为(The Theory of Games and Economic Behav
3、ior)。标志着博弈理论的初步形成 Nash(1950,1951)两篇关于非合作博弈的重要文章,在非常一般的意义下。定义了非合作博弈及其均衡解,并证明了均衡解的存在。基本上奠定了现代非合作博弈论的基石。,第一章 导论,1. 什么是博弈论 定义:关于包含相互依存情况中理性行为的研究。 目的:决策,合理的预测 思想:有限性,东方性,妻子B FB丈夫F,性别战(battle of sexes),腐败问题的博弈分析,政府监督 不监督受贿官员不受贿,贸易自由化的博弈分析,乙国自由化 保护自由化甲国保护,大户与散户的博弈模型,散户分析并进入 跟随大户进入分析并进入 大户跟随散户进入,国有股减持,投资者支持
4、 不支持减持国有股东不减持,机构投资者之间的博弈分析,机构乙合作 不合作合作机构甲不合作,货币政策目标的博弈分析,企业增加投资 不增加投资 增加货币供给 中央银行不增加货币供给,上市公司虚假信息披露行为的博弈分析,证券 监管机构,上市公司造假 不造假,检查,不检查,E:造假行为对上市公司的额外收益; F:监管机构发现公司造假后的惩罚; C:监管机构的检查成本; D:上市公司造假的成本; :监管机构成功查实公司造假行为之概率。,2. 博弈要素,局中人 策略纯策略空间 Si=Si1, Si2, Siki 盈利(支付)函数(payoff function):Ui(s),3. 博弈的分类,从信息的角度
5、:完全信息、不完全信息 从局中人行动的先后次序:静态博弈、动态博弈 完全信息静态博弈完全信息动态博弈不完全信息静态博弈不完全信息动态博弈,第一部分 完全信息静态博弈,第二章 策略型博弈与Nash均衡,1. 博弈的正则型,两人零和游戏(猜谜游戏)局中人21 2局中人1,1,2,定义:n人博弈正则型(或策略型)表示指定了n个局中人的纯策略空间,以及对应每个策略组合的盈利函数U1,U2,Un,可将该博弈表示为:G=S1,S2,Sn;U1,U2,Un,2. 混合策略,猜谜游戏无纯策略解 设甲的策略为(p,1-p)乙的策略为(q,1-q) 对于甲来说,如果乙伸一个指头,期望盈利为: p+(-1) (1-
6、p)=2p-10p0.5如果乙伸两个指头,期望盈利为: -p+(1-p)=-2p+10 p0.5 因此理想的混合策略是: (0.5, 0.5),定义:局中人i(i=1,2,n)中的一个混合策略是该局中人的纯策略空间Si=(si1,si2,siki)上的一个概率分布,可用i来表示。所有n个局中人各自的混合策略1,2, n是独立的。n个混合策略构成的 = 1,2, n是一个策略组合(策略剖面,profile)。,i(si j)表示第i个局中人混合策略i在纯策略si j上的概率,因此局中人i在混合策略上的期望盈利为:,算例,局中人2L M RU 局中人1 MD,局中人1的混合策略: 1=(1(U),
7、1(M),1(D)=(1/3,1/3,1/3) 局中人2的混合策略: 2=(2(U),2(M),2(D)=(0,1/2,1/2) 策略组合: =(1,2),局中人1策略组合 的期望盈利为: U1( )=4*1/3*0+5*1/3*1/2+6*1/3*1/2+2*1/3*0+8*1/3*1/2+3*1/3*1/2+3*1/2*0+9*1/3*1/2+2*1/3*1/2=11/2,局中人1的混合策略: 1=(1(U),1(M),1(D)=(1/3,1/3,1/3) 局中人2的混合策略: 2=(2(U),2(M),2(D)=(0,1/2,1/2) 策略组合: =(1,2),局中人2策略组合 的期望盈
8、利为: U2( )=3*1/3*0+1*1/3*1/2+2*1/3*1/2+1*1/3*0+4*1/3*1/2+6*1/3*1/2+0*1/2*0+6*1/3*1/2+8*1/3*1/2=9/2,3. 累次严优(iterated dominance),隐含着Nash均衡的思想 局中人2L M RU 局中人1 MD,局中人2L M R,局中人1,局中人2L RU 局中人1 MD局中人2L R 局中人1 U,合理,符合逻辑的过程,得到累次严优的解为:局中人2L局中人1 U累次严优的局限性,严劣纯策略,定义:对局中人i的某个纯策略si, 如果存在混合策略i*,使得s-i S-i Ui(i*,s-i)
9、 Ui(si, s-i)且在S-i中至少存在一个纯策略组合s-i* S-i, 使上式中的不等号严格成立 Ui(i*,s-I*) Ui(si, s-I*)则称纯策略si为局中人i的弱劣纯策略。如果对一切s-i S-I,上式中的不等式严格的成立 Ui(i*,s-i) Ui(si, s-i) s-i S-i 则称si为局中人i的严劣纯策略。,4. 累次严优的应用,囚徒困境乙坦白 抗拒坦白甲 抗拒,虽然(坦白,坦白)是累次严优的解,但不是有效解。 定义:如果不存在其他的结局,使得某些局中人的效用(盈利)比在这个结果的效用好,同时又不会使其他局中人的效用变的更差,则称博弈的这个结局是有效的。 (抗拒,抗
10、拒)是有效的,但不是博弈的解。 个体理性并非一定导致集体理性。,教案网址, 密码:123456 使用方法: 1.进入: 2.点击右上角的:电邮 3.输入用户名与密码,登录 4.进入收件箱 5.在主题下点击:class1 6. 不扫描,直接下载,第一章 策略型博弈与Nash均衡,5. Nash均衡,为什么要考虑均衡?,均衡的含义 役使原理,工程问题和社会问题,索罗斯:经济理论设法模仿物理学,古典经济学以牛顿为荣,却忘记牛顿曾在南海泡沫事件中丧失一大笔财富。 索罗斯:我正好对真理有上瘾一般的渴望,因此我坚持社会科学是一种炼金术,不是科学。 索罗斯:社会学家和自然科学家一样有心追求真理,但是他们有玩
11、弄魔法的机会,自然科学家大致上没有这种机会。要防止滥用,最好的方法是承认这种可能性。,规律:预测的基础,西方哲人苏格拉底的名言 休谟:不可知论,规律的本质 哈耶克:在社会的演进中,没有什么东西是不可避免的,使其成为不可避免的是思想。 波普尔:科学的本质 不可预测性与市场经济、法制社会。 可知论,定义:完全信息静态博弈问题中的混合策略组合i* ,如果对所有的局中人i,均成立 Ui(i*, *-i) Ui(sij, *-i ),sij Si那么i*被称为该博弈的Nash均衡。如果 i*是退化的,那么就称为纯策略Nash均衡。,严劣策略有没有可能是Nash均衡? 累次严优解与Nash均衡的关系?,寻
12、找纯策略Nash均衡的方法:划线法,妻子B FB丈夫F,性别战(battle of sexes),贸易自由化的博弈分析,乙国自由化 保护自由化甲国保护,国有股减持,投资者支持 不支持减持国有股东不减持,机构投资者之间的博弈分析,机构乙合作 不合作合作机构甲不合作,猜谜游戏无纯策略解 设甲的策略为(p,1-p)乙的策略为(q,1-q) 固定乙的混合策略(q,1-q),则甲的期望盈利为: pq+(1-p)(1-q)-p(1-q)-q(1-p)=1+4pq-2p-2q要使甲的收益达到最大: 4q-2=0q=0.5 同理可得:p=0.5 因此理想的混合策略是: (0.5, 0.5),寻找混合策略Nas
13、h均衡的方法,p,1-p,q,1-q,L RUD预测的稳定性问题,弱劣策略有没有可能是Nash均衡?,严格均衡(Harsanyi,1973),定义:在策略型博弈 G(S1,S2,Sn;u1,u2,un)中,如果每一个局中人关于其他局中人的策略具有唯一的最佳反应,这样的Nash均衡称做严格的(strict)。就是说假如s*=(s*i,s*-i)是严格均衡,当且仅当s*是Nash均衡。且对所有的纯策略si s*,成立 ui(si*, s*-i) ui(si, s*-i ),懦夫博弈(chicken game)T WTW,多重Nash均衡,T WTW,聚焦法(schelling,1960),例:要求
14、两个局中人各自独立写出(-0.5,0.5)中任意一个数,若两个人写的数一样,则给予奖励,否则给予惩罚。,-0.5,0.5,0.5,N人共同投资问题大 小大小,风险占优,L RUD,Pareto最优,6、Nash均衡存在性定理,单纯形,定理:如果f(x)连续的将一个非退化的单纯形映射到自身,则至少存在一个不动点 x*= f(x*),Brower不动点定理,Kakutani不动点定理,定理:设X是N维实空间中的一个有界闭凸集,对于每一个xX,设F(x)是X中一个非空凸子集,假如“图” (x,y); y F(x)是闭的,则存在x*X ,使得 x*F(x*),集值函数,Kakutani不动点定理证明,
15、Nash(1950)均衡存在性定理,定理:任何有限正则型(或策略型)博弈具有混合策略均衡。,Nash均衡存在性证明,考虑两个局中人A、B,纯策略空间: SA=s1,sI, SB=s1,sJ 盈利函数:aij,bij A、B的混合策略分别为: p= p1,pI , q=q1,qJ,对于B的每一个混合策略q,A选取混合策略p极大化其效用函数,将上式的解记为: p=P(q) 同理,对于A的每一个混合策略p,B选取混合策略q极大化其效用函数,将其解记为: q=Q(p),定义映射:,验证Kakutani不动点定理的条件,得到不动点:,连续盈利无限博弈中的Nash均衡存在性,定理(Glicksberg,1
16、952):考虑策略型博弈,其局中人的策略空间Si是度量空间中的非空紧子集,如果盈利函数ui为连续函数,那么博弈至少存在一个混合策略的Nash均衡。,习题:监察博弈,委托人监察 不监察偷懒代理人 工作,g表示工作会使代理人花费的成本 h表示委托人监察的成本,gh0(为限制考察的数量) w表示代理人的工资,wg v表示委托人工作所产生的价值,第二部分 完全信息动态博弈,第二章 展开型博弈,一、博弈树,1. 博弈树的所包含的信息 (1)局中人的集合 (2)行动的次序 (3)局中人行动时的纯策略空间 (4)局中人作出行动决策时所获得的信息集合。 (5)局中人的盈利或效用 (6)任何外生事件上的概率分布
17、。,例,2. 博弈树规则,(1) 每一个结至多有一个其他结直接位于它的前面。,(2) 在博弈树中没有一条路径可以使决策结与自身相连。,(3) 博弈树必须有初始结,(4) 每个博弈树只有一个初始结,3、完美信息与不完美信息,定义:假如一个局中人在轮到他行动时知道自己处于博弈树的那个结上,我们称该局中人有完美信息。博弈中的每一个局中人都具有完美信息,则称该博弈有完美信息。如果局中人在不知道另外的局中人前面行动的情况下必须行动,则称该局中人具有不完美信息。倘若至少有一个局中人具有不完美信息,则称该博弈具有不完美信息。,二、展开型博弈的策略与均衡,概念 信息集 Hi=hi: hi是局中人i的信息集 行
18、动空间 A(hi):局中人i基于信息集hi的行动全体 Ai= hiHiA(hi):局中人i的所有行动的集合,纯策略空间局中人i的一个纯策略 si:HiAi ( hiHi, si (hi) A(hi) Si=si: si是局中人i的一个纯策略 Si= hiHiA(hi)纯策略组合 S=Si,局中人1 信息集:H1=h1;行动空间:A(h1)=左,右 纯策略空间:S1=A(h1)=左,右,局中人2 信息集:H2=h12,h22;行动空间:A(h12)=A,B; A(h22)=C,D 纯策略空间:S2=A(h12)A(h22)=(A,C),(A,D),(B,C),(B,D),纯策略组合S=左, (A
19、,C),左, (A,D),左, (B,C),左, (B,D), 右, (A,C),右, (A,D),右, (B,C),右, (B,D),2、展开型博弈的策略型表示,局中人1 信息集:H1=h1;行动空间:A(h1)=左,右 纯策略空间:S1=A(h1)=左,右,局中人2 信息集:H2=h2;行动空间:A(h2)=A,B 纯策略空间:S2=A(h2)=A,B,展开型博弈的策略型表示,局中人1 信息集:H1=h1,h21 行动空间:A(h1)=左,右; A(h21)=E,F 纯策略空间: S1=A(h1)A(h21)=(左,E),(左,F),(右,E),(右,F),局中人2 信息集:H2=h12,
20、h22 行动空间:A(h12)=A,B; A(h22)=C,D 纯策略空间: S2=A(h12)A(h22)=(A,C),(A,D),(B,C),(B,D),纯策略组合S= S1S2=(左,E),(左,F),(右,E),(右,F) (A,C),(A,D),(B,C),(B,D),(A,C),(A,D),(B,C),(B,D),(左,E),(左,F),(右,E),(右,F),局中人2 信息集:H2=h12,h22 行动空间:A(h12)=A,B; A(h22)=C,D 纯策略空间: S2=A(h12)A(h22)=(A,C),(A,D),(B,C),(B,D),局中人1 信息集:H1=h1 ,h
21、21,h31 行动空间:A(h1)=左,右; A(h21)=a,b;A(h31)=c,d 纯策略空间:S1=A(h1)A(h21)A(h31)= (左,a,c),(左,a,d),(左,b,c),(左,b,d), (右,a,c),(右,a,d),(右,b,c),(右,b,d),纯策略组合=S1S2=(左,a,c),(左,a,d),(左,b,c),(左,b,d), (右,a,c),(右,a,d),(右,b,c),(右,b,d) (A,C),(A,D),(B,C),(B,D),展开型博弈的策略型表示,(A,C),(A,D),(B,C),(B,D),(左,a,c),(左,a,d),(左,b,c),(左
22、,b,d),(右,a,c),(右,a,d),(右,b,c),(右,b,d),3. 简化策略型(reduced strategic form),定义:展开型博弈中局中人i的两个纯策略si,si,如果对于其对手的所有纯策略产生博弈结局的同一概率分布,则称 sisi将等价纯策略类简化为一个,就得到简化的策略型。,(A,C),(A,D),(B,C),(B,D),(左,E),(左,F),(右,E),(右,F),例,简化策略型,例,(A,C),(A,D),(B,C),(B,D),(左,a,c),(左,a,d),(左,b,c),(左,b,d),(右,a,c),(右,a,d),(右,b,c),(右,b,d),
23、简化策略型,(A,C),(A,D),(B,C),(B,D),(左,a,c),(左,b,c),(右,a,c),(右,a,d),4. 展开型博弈的纯策略Nash均衡,定义:纯策略组合s*是展开型博弈的纯策略Nash均衡,如果在给定局中人i的对手策略s*-i时,每一个局中人i的策略s*i使他的条件盈利达到极大化。,5. Nash均衡的存在性,结论:有限展开型博弈至少存在Nash均衡(可能是混合型)。,习题:寻找Nash均衡,局中人1 信息集:H1=h1 ,h12 行动空间:A(h1)=L,R;A(h12)=A,B 纯策略空间:S1=A(h1)A(h12) =(L,A),(L,B),(R,A),(R,
24、B),局中人2 信息集:H1=h21 ,h22 行动空间:A(h21)=L,R;A(h22)=C,D 纯策略空间:S1=A(h21)A(h22) =(L,C),(L,D),(R,C),(R,D),三、完美信息有限博弈,后退归纳法:Stackelberg 博弈,后退归纳法所隐含的策略组合,左,(B,D),左,右,(A,C),(A,D),(B,C),(B,D),后退归纳法所隐含的策略组合,(右,E),(B,D),定理:在一个具有完美信息的有限博弈中,使用后退归纳法选择的策略组合总是Nash均衡。,定理(Zermelo,1913;Kuhn,1953):完美信息的有限博弈具有一个纯策略Nash均衡。,
25、子博弈完美均衡,定义:展开型博弈的一个策略组合称为子博弈完美均衡,如果对于该展开型博弈的每一个子博弈,该策略组合都是Nash均衡。 后退归纳法相应的策略组合是子博弈完美均衡。,左,右,(A,C),(A,D),(B,C),(B,D),(左,E),(右,E),(右,F),(A,C),(A,D),(B,C),(B,D),习题:寻找子博弈完美均衡,结论:无纯策略子博弈完美均衡,结论:策略组合(R,0.5),(L,0.5)是混合策略子博弈完美均衡,混合策略子博弈完美均衡,五、宏观金融博弈模型,1、完全信息宏观金融博弈分析,分析前提 (1)博弈双方货币政策制定者和公众在博弈中及其对手的特征、策略空间、支付
26、函数以及经济的实际运行状况都具有准确的知识,没有任何不确定性。 (2)博弈双方均能在其客观的约束条件下,作出能最优的实现其决策目标的理性决策,即博弈分析的对象是理性人的理性行为及其均衡。,(3)决策时序为:在每一周期开始时,公众根据自己拥有的知识和信息形成该时期的通货膨胀预期e,并据此调整自己的经济行为,签定名义工资、利率和价格合同;然后中央银行视通货膨胀为给定的,选择能够最优化自己目标函数的货币供给增长率m。 (4)中央银行对货币供给具有完全的控制能力,实际货币供给增长率m等于计划货币供给增长率mp。 (5)不存在真实供给冲击和货币流通速度变化的影响,通货膨胀率等于货币供给增长率m,通货膨胀
27、预期e等于货币供给增长率预期me。,卢卡斯供应曲线,表明实际经济增长等于潜在经济增长加上非预期通货膨胀的影响。,中央银行的决策目标,根据卢卡斯供应曲线:中央银行的决策目标为:,公众的决策目标,公众总是简单的试图正确预测通货膨胀率。,博弈均衡,中央银行决策规则,完全信息静态博弈中中央银行的最优决策为,公众的理性预期,Nash均衡解,由于期望经济增长率大于潜在经济增长率,说明完全信息条件下相机选择的货币政策具有通货膨胀倾向。,完全信息静态博弈中中央银行的最优决策为,2、宏观动态经济博弈,局中人:工人、中央银行、雇主 博弈类型:完美信息动态博弈 先后次序:在第一时期,工人选取他们将在第二时期工作的货
28、币工资增长率,他们是在不知道下一期间的价格水平情况下作出决策的;在第二期间的开始时,中央银行选择通货膨胀率;然后雇主选取就业增长率水平。,工人的决策目标,劳动力供给曲线:,雇主最终选择的雇佣增长率水平L,最大的劳力供给于L相差无几是工人的愿望,因为这预示着工人的空闲或失业可能减少而实际收入有所提高。因此选择货币工资增长率w,极大化其效用函数:,中央银行的决策目标,中央银行关心就业增长率水平与通货膨胀这两个因素,试图利用它的政策手段指导就业增长率水平与通货膨胀率趋于它们的目标值。最大化其效用函数:,雇主的决策目标,劳动力需求曲线:,雇主的策略是选取就业增长率水平L,极大化其效用函数:,宏观动态博
29、弈的均衡解,方法:后退归纳法 假设工人选择了货币工资增长率w,中央银行选择了通货膨胀率,雇主的最优决策为:,上式就是经济学的总就业函数(aggregate employment function),中央银行选择通货膨胀率,使得下式极大化:,工人选择货币工资增长率w,极大化其效用函数:,倒推回去得:,宏观经济动态模型子博弈完美均衡解,第二部分 完全信息动态博弈,第三章 多阶段博弈,第一节 可观察行动多阶段博弈,1、定义:又称几乎完美信息的博弈。是指 (1)在第k阶段中所有的局中人在选择行动时知道在此以前的阶段所选择的行动。 (2)在每一个k阶段,所有的局中人同时行动。,2、有限范围博弈的一阶段偏
30、离准则,定义:策略组合s满足一阶段偏离条件是指:没有一个局中人i通过在某单阶段偏离然后再与s一致而获利。,定理:在可观察行动的有限多阶段博弈中,策略组合s是子博弈完美 s满足一阶段偏离条件,例、具有静态均衡的有限重复囚徒博弈,局中人2坦白 抗拒坦白局中人1 抗拒,结论:(坦白,坦白)是重复囚徒博弈的子博弈完美均衡。 君子永远斗不过小人,例、两阶段博弈:银行挤兑,两个投资者各具银行存款D,银行将这两笔存款用于一长期项目。如果在项目到期之前银行被迫抽回资金,仅可挽回2r,其中DrD/2。若到期后再收回,连本带息将得到2R,RD。,策略型表示,子博弈完美均衡,3、无限多阶段博弈,在无穷远处连续定义:
31、对于任意的两个无限水平历史h1与h2,记,对每一个局中人i,如果,那么该无限多阶段博弈称为在无穷远处连续。,定理:在可观察行动的无限多阶段博弈中,策略组合s是子博弈完美 s满足一阶段偏离条件,例、无限次囚徒博弈,由一阶段偏离准则知: (坦白,坦白)仍然是无限次重复囚徒博弈的子博弈完美均衡。 当=1/(1+r)0.5时,策略组合:在第一阶段:(背叛,背叛)只要没有一个局中人在某阶段选择行动坦白,双方就一直采取行动(背叛,背叛)如果任何一个局中人在某阶段选择行动坦白,双方就一直采取行动(坦白,坦白)是子博弈完美均衡。,局中人没有发生坦白的事件,有局中人发生坦白的事件,并一直坦白下去,大智若愚 人不
32、犯我,我不犯人,人若犯我,我必犯人,Review,reference,Adam M. Brandenburger and Barry J. Nalebuff, Co-opetition, a nontechnical business book on how to negotiate, cooperate, and compete Avinash K. Dixit and Barry J. Nalebuff, Thinking Strategically, a nontechnical game theory book for a general audience. Robert Axelro
33、d, The evolution of cooperation, a nontechnical explanation of cooperation in repeated prisoners dilemma games. Joel Watson, Strategy: an introduction to game theory, an advanced game theory textbook for undergraduates that incorporates contract theory. Gibbons, 高峰译,博弈论基础,北京:中国社会科学出版社, 1999.3 http:/
34、, an excellent web resource for game theory,Introduction,Definition: the study of conflict, illuminates how rational, self interested people struggle against each other for supremacy. Players: rational, no mercy or compassion, only self-interest Strategy, moves, actions Payoff, utility function Type
35、s: (static+dynamic)(complete+incomplete),Nash equilibrium: No players regrets his strategy, given everyone elses move. Nash(1950)均衡存在性定理:任何有限正则型(或策略型)博弈具有混合策略均衡。,第一部分 完全信息静态博弈,第一章 策略型博弈与Nash均衡,Trust games,Random walk: known stock value,羊群效应(stampede effect) unknown stock value,第二部分 完全信息动态博弈,第二章 展开型博
36、弈( Game tree ),局中人1 信息集:H1=h1 ,h12 行动空间:A(h1)=不偷,偷; A(h12)=坦白,抗拒 纯策略空间:S1=A(h1)A(h12) =(不偷,坦白),(不偷,抗拒),(偷,坦白),(不偷,抗拒),局中人2 信息集:H1=h21 ,h22 行动空间:A(h21)=不偷,偷; A(h22)=坦白,抗拒 纯策略空间:S1=A(h21)A(h22) =(不偷,坦白),(不偷,抗拒),(偷,坦白),(不偷,抗拒),Nash均衡,子博弈完美均衡(Subgame perfect equilibrium),第二部分 完全信息动态博弈,第三章 多阶段博弈,第一节 可观察行
37、动多阶段博弈,定理:在可观察行动的有限多阶段博弈中,策略组合s是子博弈完美 s满足一阶段偏离条件,When business should be honest,买硬币;蓝田股份; 亿安科技 圈钱游戏; 信用危机; 股市的边缘化 百年老店,无限多阶段博弈,定理:在可观察行动、无限远处连续的无限多阶段博弈中,策略组合s是子博弈完美 s满足一阶段偏离条件,例、无限次囚徒博弈,由一阶段偏离准则知: (坦白,坦白)仍然是无限次重复囚徒博弈的子博弈完美均衡。 当=1/(1+r)0.5时,策略组合:在第一阶段:(背叛,背叛)只要没有一个局中人在某阶段选择行动坦白,双方就一直采取行动(背叛,背叛)如果任何一个
38、局中人在某阶段选择行动坦白,双方就一直采取行动(坦白,坦白)是子博弈完美均衡。,局中人没有发生坦白的事件,有局中人发生坦白的事件,并一直坦白下去,Have less trust in smokers. Repeated prisoners dilemma with no last period,When business should be honest,The true catalyst of business honesty is repeated play Many people in business exhibit honesty not because they are moral
39、 but because they are greedy.,1、定义:令G=A1, A2,An; u1, u2,un)表示n个局中人的完全信息博弈,对G重复若干次,称G为阶段博弈。给定阶段博弈G,令G(T)表示G 实施T(T为大于1的整数)次的重复博弈。在某次阶段博弈开始之前,所有已采取过的前面阶段的行动都可以观察到。局中人在G(T)的盈利函数或效用简单的为来自T个阶段博弈盈利现时值之和。,第二节 有限重复博弈,定理:如果阶段博弈G有唯一的Nash均衡,那么对任意有限次T,重复博弈G(T)有唯一的子博弈完美结局:在每一阶段取G的Nash均衡策略。 注1:定理中要求的唯一Nash均衡可以是混合策
40、略均衡。如猜谜游戏。 注2:阶段博弈G可以不是静态的,假如阶段博弈G是完全且完美信息动态博弈时,且具有唯一的“后退归纳”结局,那么G(T)有唯一的子博弈完美结局。,2、当阶段博弈具有唯一的Nash均衡时,3、当阶段博弈具有多重Nash均衡时,局中人2L M RU 局中人1 MD,两阶段博弈的子博弈完美均衡: (U,L), (U,L);(U,L), (D,R);(D,R),(U,L); (D,R),(D,R),考虑策略组合: (M,M), (D,R)和(x,y), (U,L) (x,y) (M,M),局中人2L M RU 局中人1 MD,结论:如果阶段博弈G=A1, A2,An; u1, u2,
41、un)具有多重Nash均衡,那么可能(但不必)存在重复博弈G(T)的子博弈完美均衡结局,其中对于任意的tT,在t阶段的结局并不是G的Nash均衡。,第三节 无限重复博弈,观察结果:如果阶段博弈G有m个静态Nash均衡aj, j=1m,那么令j(t)为时间周期t到指数j的一个任意映射,策略组合周期t采取行动aj(t) 是子博弈完美均衡。,2、保留效用(reservation utility),定义:又称最小最大值(minmax value),局中人i的保留效用为,令mi-i表示局中人i的对手使上式达到最小值的策略,称mi-i为针对局中人i的最小最大组合(minmax profile)。对应地,令
42、mii为此时局中人i的策略,因此 gi(mii, mi-i)= vi,上有政策,下有对策 损着;阴险,例、性别战(battle of sexes),妻子B FB丈夫F,设妻子以概率q选择B,以概率1-q选择F,那么 当丈夫选择B时,丈夫的盈利为:q 当丈夫选择F时,丈夫的盈利为:2(1-q),结论:丈夫的保留效用为,妻子B FB丈夫F,设丈夫以概率p选择B,以概率1-p选择F,那么 当妻子选择B时,妻子的盈利为:2p 当妻子选择F时,妻子的盈利为:1-p,结论:妻子的保留效用为,习题:求妻子的保留效用,保留效用的意义,在任何静态均衡和在重复博弈的所有Nash均衡中,局中人i的盈利至少为其保留效
43、用,不管折扣因子如何取值。,3、阶段博弈的可行盈利(效用),性别战有三个Nash均衡 (B,B), 双方盈利为(1,2) (F,F), 双方盈利为(2,1) 第三个Nash均衡为混合策略Nash均衡。,性别战(battle of sexes)妻子B FB丈夫F,混合策略为 (1/3,2/3) , (2/3,1/3) ,双方盈利为(2/3,2/3),奇数周期取(F,F) ,偶数周期取(B,B) ,那么在无限周期博弈中,丈夫的盈利为: u1=(1-)(2+22+3+)=(1-)2(1+2+)+(1+2+)=(1-)(2+)/(1-2)=(2+)/(1+)3/2 (当 1),4、无限阶段博弈的可行盈
44、利,奇数周期取(F,F) ,偶数周期取(B,B) ,在无限周期博弈中,妻子的盈利为: u2=(1-)(1+2+2+23+)=(1-) (1+2+)+2(1+2+)=(1-)(1+2)/(1-2)=(1+2)/(1+)3/2 (当 1),随机化装置 (Fudenberg, Maskin, 1986),假设在每一周期,以概率p取(F,F),概率1-p取(B,B) 。丈夫在每一周期的期望盈利为: 2p+(1-p)=p+1 在无限周期博弈中,丈夫的期望盈利为: u1=(1-)(p+1)+(p+1)+2(p+1)+)=(1-)(p+1)/(1-)=p+1 妻子在每一周期的期望盈利为: p+2(1-p)=
45、2-p 因此,在无限周期博弈中,妻子的期望盈利为: u2=2-p 结论:通过设计随机化装置,可以实现阶段博弈有限个盈利向量的任何凸组合。,结论:通过设计随机化装置,可以实现阶段博弈有限个盈利向量的任何凸组合。,5、可行且严格个体理性集合,定义:,6、无名氏(Folk)定理,定理:对于每一个可行的盈利(效用)向量v,其中对所有局中人i成立vivi,存在一个 (1),使得对一切(, 1),存在G(,)的一个Nash均衡具有盈利v。,证明,假设g(a)=v。对每一个局中人i,采取如下策略组合:在第一周期取ai,并且继续采取行动ai,只要 (1)在以前的周期中已实施的行动是ai;或者 (2)在以前的周
46、期中已实施的行动有两个以上的分量不同于a。如果在以前某个周期中局中人i是唯一不遵循行动组合a的人,那么每个局中人j在博弈的其余部分取mij。 那么上述策略组合对充分大的是Nash均衡。,例、性别战(battle of sexes),妻子B FB丈夫F,7、“Nash威胁”无名氏定理,定理(Friedman,1971):设a*为阶段博弈的Nash均衡,相应的盈利向量为e。那么对任意的vV,其中对所有局中人i成立viei,存在一个,使得对所有,存在无穷重复博弈G()的子博弈完美均衡,其盈利为v。,证明,假设g(a)=v。对每一个局中人i,采取如下策略:在第一周期取ai,只要在以前的周期中已实施的行
47、动是a,并且继续采取行动ai。如果至少有一个局中人不按a行动,那么在博弈的其余周期每个局中人取采取行动ai*。 那么上述策略组合对充分大的是子博弈完美均衡。,例、性别战(battle of sexes),妻子B FB丈夫F,触发策略(trigger strategies),如果任何一个局中人的一次性不合作(偏离)将触发局中人永远地不合作开关。,例、无限重复Cournot双寡垄断模型,阶段博弈(静态Cournot博弈模型) 局中人:公司A与公司B 策略空间:产量q1(0,a),产量q2 (0,a) 盈利函数:市场总产量Q=q1+q2,市场出清价格为 P(Q)=a-Q(Qa)设每个公司具有边际成本c,盈利函数为: g1(q1,q2)=(a- q1-q2-c)q1 g2(q1,q2)=(a- q1-q2-c)q2,博弈具有唯一的Nash均衡: q1*=q2*=qc=(a-c)/3盈利为: (a-c)2/9 垄断盈利函数为:Q(a-c-Q) 垄断产量为: qm =(a-c)/2 垄断产量的一半为: q1=q2= qm/2=(a-c)/4盈利为: (a-c)2/8 保留效用为:,