1、3 完全且完美信息动态博弈,开金矿 甲欲开采价值4万元的金矿,缺1万资金。甲向乙借1万,许诺采到金后对半分成。乙是否该借钱给甲呢?,分析:乙借不借依赖于甲守不守信,甲为不可信承诺,乙选不借,3 完全且完美信息动态博弈,3.1 动态博弈的表示法和特点3.2 子博弈完美纳什均衡3.3 几个经典的动态博弈模型Stackelberg博弈要挟诉讼讨价还价委托-代理,3.1.1 动态博弈的表示方法:扩展型,借,不借,分,不分,(1,0),乙,甲,(2,2),(0,4),博弈树 结:决策结(信息集) 终点结 枝:行动选择,3.1.2 动态博弈的特点,动态博弈的策略和结果静态博弈策略:博弈方一次性同时选择的行
2、为结果:这些策略的策略组合,以及所对应的各方得益动态博弈策略:各博弈方在整个博弈中轮到选择的每个阶段,针对前面阶段的各种情况作相应选择和行为的完整计划结果:各方采用的策略组合、实现的博弈路径和各博弈方得益动态博弈的非对称性后行为的博弈方具有更多信息先动优势,3.1.3 完全且完美信息动态博弈,参与人每个参与人选择行动的时点每个参与人每次行动时可供选择的行动集合每个参与人每次行动时有关对手过去行动选择的信息支付,完全:complete参与人特征、策略空间、支付函数完美:perfect自己行为之前博弈进程,借,不借,分,不分,(1,0),乙,甲,(2,2),(0,4),不可信诺言,3.1.4 可信
3、性,可信性:各博弈方是否会真正、始终按照自己的策略所设定的方案 行为,还是可能临时改变自己的行动方案(相机选择)?,有法律保障的开金矿博弈: 可信的诺言和威胁,(2,2),假设打官司使乙能收回本钱1万元,甲则失去全部采金收入。,法律保障不足的开金矿博弈,赢了官司输了钱,启 示,完善公正的法律制度不但能保障社会的公平,而且还能提高社会经济活动的效率。法律制度应满足两方面的要求一是对人们正当权益保护力度足够大二是对侵害他人利益者有足够的震慑,IBM公司的可信威胁,IBM公司曾经对市场公开承诺,对一些刚刚推向市场的新型电脑将在二、三年后以很低的价格销售。这似乎不可思议,因为既然二、三年后会降价,许多
4、人就可能推迟购买,这将降低IBM的销量。但实际上,IBM公司这样做是为了阻止其他电脑公司模仿它的产品。电脑市场上存在大量的仿造者,它们往往紧跟在IBM公司之后推出仿造品,价格比IBM的电脑还低10%到30%。然而,当IBM公司作出这样的承诺之后,对那些仿造者来说,仿造IBM的产品就变得无利可图,因为等他们花费不小的成本仿造出这种产品并推向市场的时候,IBM将很快或已经降低了售价。由于电脑技术发展的速度很快,对IBM来说,作出这一承诺实际上并不需要花费太大的成本,因为这种价格降低的趋势是必然的。由于承诺降价,IBM当前的电脑销量也许会减少,但降价承诺却在很大程度上遏制了仿造品,这是值得的。,3.
5、2 子博弈完美纳什均衡,3.2.1 子博弈,某个动态博弈从其某个阶段开始的后续阶段,可以自成一个博弈。条件:有初始信息集和进行博弈所需要的全部信息。,3.2.2 逆推归纳法,从动态博弈的最后一个阶段或最后一个子博弈开始,逐步向前倒推以求解动态博弈的方法。,例1:开金矿博弈,例2:先来后到,例3:房地产开发博弈,开发,不开发,开发,不开发,开发商A,开发商B,(-3,-3),(1,0),开发,不开发,(0,1),(0,0),开发商B,例3:房地产开发博弈,开发,不开发,不开发,开发商A,开发商B,(1,0),开发,(0,1),开发商B,序贯理性 sequential rationality,不论
6、过去发生了什么,参与人应该在博弈的每一个时点上最优化自己的决策。,3.2.3 子博弈完美纳什均衡,Subgame perfect Nash equilibrium如果在一个完美信息的动态博弈中,各博弈方的策略构成的一个策略组合满足:它是原博弈的一个NE;它是每一个子博弈上的NE。那么这个策略组合称为该动态博弈的一个“子博弈完美纳什均衡”。,A的策略集合:开发,不开发,B的策略集合:开发,开发,开发,不开发 不开发,开发,不开发,不开发,子博弈完美纳什均衡:(开发,不开发,开发),均衡路径equilibrium path,开发,不开发,开发,不开发,开发商A,开发商B,(-3,-3),(1,0)
7、,开发,不开发,(0,1),(0,0),开发商B,均衡路径:(开发,不开发),进,不进,打击,不打击,(0,10),进入者,在位者,(-3,6),(5,8),均衡路径:(进,不打击)均衡: (进,不打击),均衡路径:(借,分)均衡: (借,打,分),3.3 几个经典的动态博弈模型,3.3.1 Stackelberg模型3.3.2 要挟诉讼3.3.3 讨价还价3.3.4 委托-代理理论,3.3.1 斯坦克尔伯格(Stackelberg)寡头竞争模型,企业1(leader)首先选择产量q1企业2(follower)观测到q1,然后再选择产量q2价格 p=a-q1-q2成本 c支付函数 ui(q1,
8、q2)=qi(p-c) i=1,2,求解逆向归纳法,首先考虑给定q1的情况下,企业2的最优选择。 u2=q2(a-q1-q2-c),q2= (a-c-q1),求解,企业1预测到企业2将根据前式选择q2 u1=q1(a-q1-q2-c) =q1a-q1- (a-c-q1) -c =q1(a-q1-c),q1*=(a-c)/2,q2*=(a-c)/4,均衡(q1*,s(q1)),同古诺模型的比较,Cournot: q1*= q2*=(a-c)/3 u1*= u2*=(a-c)2/9Stackelberg: q1*=(a-c)/2 q2*=(a-c)/4 u1*=(a-c)2/8 u2*=(a-c)
9、2/16,企业1拥有“先动优势” 拥有信息优势使企业2处于劣势,分 析,企业2拥有信息优势,但在利益获取上处于劣势。企业1获得了先动优势。,现实生活中这样的现象很普遍,例如在某些机会面前,一拥而上大家会撞车都要吃亏,这时往往是不知利害、盲目的人冲了上去,得到了利益,而懂得利害关系的理智的人则会犹豫顾虑,从而失去机会。这虽然比所有的人都盲动造成严重的后果要好得多,但造物的奖惩却完全搞错了方向。这种情况往往也是一种很难摆脱的“悖论”或者说“宿命”。,模型的应用:两篇文章,杨慧,周晶. 易逝性产品降价时点的Stackelberg博弈.管理工程学报, 2007(3)杨慧,周晶. 易逝品降价时点设定问题
10、的Cournot博弈模型.中国管理科学, 2006(3),结论:竞争环境下,先动企业会推迟降价时点,同时获得比垄断情况下更多的收益。反之,后动企业会提前降价,收益也会有所降低。,两个参与人,行动顺序如下:原告决定是否指控被告,指控成本c;如果决定指控,原告要求被告支付s0,以了却诉讼;被告决定接受还是拒绝原告的要求;如果被告拒绝,原告决定是放弃还是向法庭起诉,原告的起诉成本(包括律师费用)为p,被告的辩护成本为d;如果案子到了法庭,原告以r的概率赢得x的支付。rxp,3.3.2 要挟诉讼 nuisance suits,要挟诉讼 nuisance suits,不指控,指控,要求s,拒绝,接受,起
11、诉,放弃,(0,0),原告,(s-c,-s),(rx-p-c,-rx-d),(-c,0),原告,被告,原告,原告:不指控,要求,放弃被告:拒绝,不指控,指控,要求s,拒绝,接受,起诉,放弃,(0,0),原告,(s-c,-s),(rx-p-c,-rx-d),(-c,0),原告,被告,原告,要挟诉讼 nuisance suits,原告指控的目的本身意味着rx p,那么在博弈的最后阶段,原告的最优选择是放弃;而被告如果知道自己拒绝,原告的最优选择是放弃,被告在第二阶段的最优选择是拒绝;如果知道被告的将拒绝,原告在第一阶段将选择不指控;子博弈精练Nash均衡是:原告选择不指控,要求、放弃),被告选择拒
12、绝,均衡结果是原告不指控。,原告的承诺行动会改变博弈结果,原告在指控前将诉讼费p支付给律师,要求的赔偿区间rxsc+p(即s-p-c0),原告提出指控;即使rxc+p仍有可能。最后的支付结果( rx+d/2-c-p,-rx-d/2),案件私了。,不指控,指控,要求s,拒绝,接受,起诉,放弃,(0,0),原告,(rx+d/2-p-c,-rx-d/2),(rx-p-c,-rx-d),(-p-c,0),原告,被告,原告,如果rx+d/2c+p,双方私了,被告的承诺行动,被告提前支付律师费y,如提前支付律师费y, 此时赔偿区域为rx, rx+d-y,假设讨价还价能力相等,赔偿rx+(d-y)/2, 则
13、rx+(d-y)/2c+p私了,不指控,指控,要求s,拒绝,接受,起诉,放弃,(0,0),原告,(s-p-c,-s-y),(-p-c,-y),原告,被告,原告,(rx-p-c,-rx-d),被告同样可以采取承诺行动,从被告的角度考虑。大企业或大人物也可以通过承诺行动使自己避免被人的无端指控。如提前支付律师费y, 此时赔偿区域为rx, rx+d-y,可能使原告提出指控的条件不成立。亦即,即使有rx+d/2c+p,但rx+(d-y)/2c+p也可能不满足。这样的承诺行动使被告节省成本rx+d/2-y。,承诺行动与子博弈完美NE,如果参与人能在博弈之前采取某种措施改变自己的行动空间或支付函数,原来不
14、可置信的威胁就可能变得可置信,子博弈完美NE就会改变。,3.3.3 讨价还价博弈,两人就如何分割1万元进行谈判,并定下规则:首先由甲提出一个分割比例,乙可以接受也可拒绝;如果乙拒绝甲的方案,则他自己应提出另一个方案,让甲选择接受与否。如此循环。在上述循环中,只要任何一方接受对方方案,博弈就告结束,而如果方案被拒绝,则被拒绝方案与以后的讨价还价过程不再有关系。每次一方提出一个方案和另一方选择是否接受为一阶段。每多进行一个阶段,由于谈判费用和利息损失等,双方的得益都要打一次折扣,折扣率(消耗系数)为,02(10000-S),逆向归纳法求解,第一回合,甲可预见乙在第二回合会出S2 =S,甲怎样出?
15、(1)必须使乙的得益 10000-2S (2)自己的得益比第二回合尽可能大 结果: 10000-S1=10000-2S S1 =10000-10000+2S 此时甲的得益S1 =10000-10000+2S 2S 均衡结果:(10000-10000+2S,10000-2S),结果分析,双方得益(10000-10000+2S,10000-2S)S=10000(10000(1-+2),10000(-2)分割比例 r=-2,现实中的例子,例如利润分配、债务纠纷、财产继承争执等。第一、第二回合相当于纠纷或争执的各方以不同形式的调解过程;第三回合相当于最后提交给司法或仲裁机构进行裁决。消耗系数相当于经济
16、纠纷中,相关各方花费在谈判和诉讼等方面的时间金钱代价等。,如果是无限回合讨价还价?,Shaked and Sutton (1984)解决思路:对一个无限回合博弈来讲,从第三回合开始,还是从第一回合开始,结果都应该是一样的。先假设整个博弈有一个逆推归纳的解,甲和乙的得益分别为S和10000-S。根据解决思路,从第三回合开始也是甲出S,乙接受,双方得益为S和10000-S。那么这个无限回合博弈相当于“甲在第三回合的出价”有强制力的三回合讨价还价博弈。,无限回合讨价还价,3.3.4 委托代理理论,明显的委托-代理关系企业雇用工人进行生产店主雇佣店员销售商品企业主聘请经理管理企业业主请物业公司管理物业
17、人们聘请律师辩护隐蔽的委托-代理关系市民与市政府官员基金购买者与基金管理者人民与军队,如何促使代理人的行为符合委托人的利益?,委托-代理关系的特征委托人的利益与代理人的行为有密切关系。委托人不能直接控制代理人的行为,甚至对代理人工作的监督也有困难,只能通过报酬等间接影响代理人的行为。,激励机制设计或机制设计,无不确定性的委托人- 代理人模型,代理人的产出是努力程度的确定性函数,即委托人可以根据成果掌握代理人的工作情况。,逆推归纳,第三阶段,代理人对是否努力的选择,代理人偷懒的“激励相容约束”,代理人努力的“激励相容约束”,逆推归纳,第二阶段,代理人选择是否接受委托,“参与约束”,逆推归纳,第一
18、阶段,委托人选择是否委托。,在第一种情况下,选择委托的条件是:,在第二种情况下,选择委托的条件是:,算 例,假设努力的投入产出函数为:代理人努力=努力水平为2单位,偷懒=努力水平为1单位努力的负效应等于努力水平的数值,E=2,S=1,计算出: R(0)=0, R(E)=16, R(S)=9,薪酬设计:w(2)=4,w(1)=2,满足促使代理人努力的激励相容约束; 满足代理人接受委托的参与约束。子博弈完美纳什均衡:委托人选择委托,代理人接受代理并努力工作。,3.4 有同时选择的动态博弈,在动态博弈的某个阶段存在博弈方的同时选择。,例:国际竞争和最优关税博弈 第一阶段,两个国家同时制定关税; 第二
19、阶段,两国各自的一个企业进行产量竞争。,例:间接融资和挤兑风险,间接融资和挤兑风险,一家银行为了给一个企业贷放一笔20000元的贷款,以20%的年利率吸引客户的存款。两个客户各有10000元资金,如果他们把资金作为1年期定期存款存入该银行,银行就可以向企业贷款。如果两客户都不愿意或只有一个存款,那么银行就无法为企业提供贷款,这时客户都能保住本金。在两客户都存款,从而银行为企业提供贷款的情况下,如果银行满1年收回贷款,企业就能完成一笔生意,银行可收回贷款本息支付存款客户的存款本息。如果在不满一年的时候,一个客户单独或两个客户同时要求提前取款,银行就不得不收回贷款,企业的生意无法完成,只能收回80
20、%的本钱偿还给银行。若一个客户要求提前取款,银行会偿还其全部本金,余款属于另一客户,若两客户同时要求,则平分收回的资金。为简单起见,假设银行不收任何佣金、手续费。,得益矩阵,间接融资客户的博弈,如果第二阶段有理想的博弈结果,(存款,存款)是帕雷托上策均衡、风险上策均衡,银行的间接融资制度起到了很好的作用,如果第二阶段的博弈结果不理想,(不存,不存)是上策均衡,客户不再信任银行,银行系统崩溃。但这种情况本身并未引起银行挤兑的风潮和金融危机。,导致银行挤兑风潮和金融危机的内在机制是什么?,对于客户来说,第二阶段的博弈结果具有不确定性,当他们在做第一阶段的决策时,可能基于第二阶段(到期,到期)的均衡
21、,因此在第一阶段选择(存款,存款)。在第二阶段,由于某种谣传引起的恐慌等原因,最终出现了(提前,提前)的纳什均衡。,只要有权威的政府机构出面保证客户资金的安全或澄清谣言,就可避免严重的银行挤兑风潮的发生及造成严重的后果。这也是为什么各国政府要建立信贷保证、保险制度,对存款进行保护、保险的原因。,3.5 颤抖手均衡和顺推归纳法,逆推归纳法存在的问题如果博弈方不能完全掌握次序、规则和得益等情况?如果博弈阶段和路径数量很大?如果某个博弈方在某个阶段遇到两种无差异的行为?如果博弈方不是完全理性?,偶然性的错误,两条子博弈完美纳什均衡的路径:(1)L(2)R-N-T-V,只要1考虑到2有一点偏离N或V的
22、可能性,就不会选择R,有意识的错误,蜈蚣博弈,唯一一条子博弈完美纳什均衡的路径:D,选择把主动权交给对方,让博弈延续下去,双方有更大的潜在利益。,颤抖手均衡,L,1,2,(2 ,1),M,(1 ,2),S,(1 ,1),1,R,N,T,2,V,(2 ,3),U,(1 ,1),路径(2)R-N-T-V 不是颤抖手均衡,颤抖手均衡: 某一均衡对于概率较小的偶然误差来说具有稳定性,具有这一性质的策略组合为“颤抖手均衡”。,颤抖手均衡,L,1,2,(2 ,1),M,(1 ,2),S,(1 ,1),1,R,N,T,2,V,(3 ,3),U,(1 ,1),R-N-T-V 是唯一的子博弈完美纳什均衡路径,也
23、是颤抖手均衡。,静态博弈的颤抖手均衡,(U, R)和(D, L)都是纳什均衡,(U, R)是颤抖手均衡,(D, L)不是颤抖手均衡,颤抖手均衡,总结颤抖手均衡是理解有限理性的博弈方在动态博弈中偏离子博弈完美纳什均衡行为的重要思想。把博弈方在各阶段的错误看作是互不相关的小概率事件。(偶然性错误),顺推归纳法,有意识的错误根据博弈方前面阶段的行为,包括偏离特定均衡路径的行为,推断他们的思路并为后面阶段博弈提供依据的方法,称为“顺推归纳法”。,顺推归纳法,(Rw,s)和(Ds,w)都是子博弈完美纳什均衡,如果1是理性的且相信2的分析能力,他会在第一阶段选择R。,蜈蚣博弈,从个体理性出发的选择最终会导
24、致极差的结果。,如何试探对方是否有合作精神?,双方的合作会在什么时候结束?,Chapter3 小结,3.1 动态博弈的表示法和特点 3.1.1 扩展形 3.1.2 动态博弈的特点 3.1.3 完全且完美信息动态博弈 3.1.4 可信性3.2 子博弈完美纳什均衡 3.2.1 子博弈 3.2.2 逆推归纳法 3.2.3 子博弈完美纳什均衡,3.3 几个经典的动态博弈模型 3.3.1 Stackelberg模型 3.3.2 要挟诉讼 3.3.3 讨价还价 3.3.4 委托人-代理人理论3.4 有同时选择的动态博弈3.5 颤抖手均衡和顺推归纳法,本章重点,* 逆推归纳法* Stackelberg模型* 委托-代理模型,