1、第一章 完全信息非合作静态博弈例一 囚徒困境 本例子对奠定非合作博弈理论基础起着重大作用。假定有两个嫌疑犯 A 和 B 作案后被抓住,关在不同审讯室审讯,他们部知道,如果两人都坦白各判刑 8 年,若两人都抵赖各判 1 年,若一人坦白另一人抵赖坦白者释放抵赖者判十年,下图给出本例的完整数学描述:囚徒 B坦白 抵赖坦白囚徒 A抵赖 (囚徒 A ,囚徒 B)基本假定:1) 两囚徒都是理性的;2) 两囚徒都了解对方是理性的;3) 两囚徒都了解在各种情况下审判后果的信息;4) 两囚徒都了解对方了解在各种情况下审判后果的信息。研究问题:预测最终结果。结论:从上表看出 A 与 B 同样是:不管对方采取什么行
2、动,坦白都是最优的,因而两囚徒若满足上述条件他们所采取的行动都是坦白。 (坦白,坦白)称为本博弈的均衡解。从上述模型中看出,如果两人都选择抵赖,对两人都是最好的,但结果8,8 0,1010,0 1,1他们只能选择较差的结果,都坦白,不论他们事先如何订立攻守同盟都无效,原因出在上述四点假设上。囚徒困境表现为个人理性压倒集体理性。例二 智猪博弈猪圈有两头理性的智猪,一头大猪,一头小猪。猪圈一头放着食,另一头有一按钮,供智猪食供应。按一下按钮会有 10 单位猪食进糟,但谁按谁就要付出 2 单位代价。若大猪先到、大猪吃到 9 单位,小猪吃到1 单位,若同时到大猪吃到 7 单位,小猪吃到 3 单位,若小
3、猪先到,大猪吃到 6 单位,小猪吃到 4 单位。本问题可用下形式表示:小猪 按 等待 按大猪等待 (大猪,小猪) 基本假设:与囚徒困境相同,即理性人假设和完全对称信息假设。问题分析:很显然小猪的最优策略是等待,大猪很清楚小猪最优策略是等待,而且必然采取等待行动,那么大猪的策略是按,于是其结果必然是大猪按小猪等待。 (大猪按,小猪等待)为本博弈均衡解。智猪问题本质:在合作共事中谁享受成果多谁多出力。三、基本概念5,1 4,49,1 0,0包括:参与人、行动、信息、战略、支付(效用) 、结果、均衡。其中参与人、战略、支付是描述一个博弈所需的最少要素;行动和信息是其“积木(建材) ”;参与人、行动和
4、结果称为“博弈规则”。博弈分析的目的是使用博弈规则预测均衡。1. 参与人 博弈中决策主体,他的目的是通过迭择行动(或战略)以最大化自己的支付(效用)水平。除一般意义的参与人外,博弈论把 “自然 ”作为虚拟参与人来处理。2.行动 参与人在博弈的某个时点的决策变量。用 ai 表示第 i 个参与人的一个行动,Ai =ai表示第 i 个参与人可选择的行动集合。在 n人博弈中参与人的行动有序集 a =( a1,an )称为行动组合。与行动相关的一个重要问题是行动的顺序,行动顺序往往决定博弈的结果。实际上静态博弈与动态博弈是由行动顺序来划分的。在博弈论中一般假定参与人的行动空间和行动顺序是析有参与人的共同
5、知识。3.信息 参与人有关博弈的知识。 (关于信息以后将更详细介绍) 。“共同知识 ”是所有人知道,所有人知道所有知道的知识。4.战略 参与人在给定信息集下的行动规则。战略与行动不同。5.支付 特定的战略组合下参与人确定的效用水平,或期望效用水平。6.结果 博弈分析者所感兴趣的所有东西,加均衡战略组合、均衡行动组合、均衡支付组合等。7.均衡 所有参与人的最优战略组合。四、战略表达式 一个博弈可以用两种不同方式来表示,一种是战略表达式,另一种是扩展式,战略式适于分析静达博弈,扩展式适于表示动态博弈。 战略式又称标准式,在这种表述中,所有参与人同时各自选择各自的战略。 战略式更准确表述为:1. 博
6、弈参与人集合:i ,= (1,2,n) ;2.每个参与人战略空间:Si;3.每个参与人的支付函数:ui(s1,sn) 。用 G =s1,sn;u1, un 代表战略式表述博弈。当参与人为两人时则可表示为矩阵形式。五、纳什均衡纳什均衡描述性陈述定义,如果一个博弈存在一个战略组合,任何参与人要改变这一战略组合都可能导致降低自身的效用水平(或只能保持原有的效用水平) ,因而任何参与人都没有积极性去改变这一战略组合,这一战略组合称该博弈的纳什均衡。六、求解纳什均衡方法(一般方法)定义:有 n 个参与人的战略表述博弈 G =s1,sn;u1,un ,战略组合 s * =(s1* ,si * ,sn *
7、)是一个纳什均衡,如果对于每个 i, si *是给定其他参与人选择s-i * =( s1*,si-1 * , si+1 * ,sn * )的情况下第 i 个参与人的最优战略,即:Ui( si * , s-i * ) Ui( si , s-i * ) si Si, I ()或表述为:si * =argmax ui(s1*,si-1 * , si, si+1 * ,sn * ) ()()式为纳什均衡求解的基本公式。从上式得出以下方法:i ( s1,sn ) = ui(s1,sn )/ si = 0i ( s1, sn )称为 si 对(s1,si-1 , si+1 ,sn )反应方程,即第 i 个
8、参与人对其它参与人如果采取行动(s1,si-1 , si+1 ,sn )的行动对策。对反应方程组i ( s1,sn ) = 0 i =1 , 2 , ,n求解,则得出纳什均衡解。七、公共用地悲剧这是制度经济学中典型的例子,是 1968 年 Hardin 所提出的,他证明了,如果一种资源没有排他性产权,就会导致这种资源过度使用而使效益下降。现假设有三个农户 n3 每只羊的价格为V100(ggg) ,成本为 c。那么三个农户的收益分别为:1g100( ggg )-4 2g2 100( ggg ) -4 3g3 100( ggg ) -4 由一阶导数条件分别求出反应函数为:g48( gg )2g2
9、48 ( g g1)2g3 48 ( gg1 )2求得 g g2 g3 24; 1 2 3576G72 ;1728 现研究该草地为一个农民所有,由它一个人放牧的情况。这时 G (100G -4 )可求得 G 48, 2304显然,草地为一个人所有由一个人使用,养羊少收益大,这就是共公用地悲剧。八、混合战略纳什均衡例一 社会福利博弈有些博弈并不存在纳什均衡,例如社会福利博弈问题:流浪汉找工作 游荡救济政府不救济很显然上述博弈 不存在纳什均衡。给定政府政策是救济流浪汉最优策略是游荡;给是流浪汉对策是游3,2 1,31,1 0,0荡政府最优政策是不救济;给定政府政策是不救济浪浪汉的最优策略是找工作;
10、而给定流浪汉对策是找工作政府最优策略是救济,因而不存在纳什均衡解。但可以把均衡的概念放宽定义下面混合战略纳什均衡的概念。混合战略纳什均衡是参与人以一定的概率选择某种战略。如在本例中政府以概率 选择救济,以(1- )选择不救济;流浪汉以概率 选择找工作,以(1-) ,选择流荡。在以上假设下政府的期望效用函数为:vG( , )= (3 +(-1) (1-) )+ ( 1-) (- +0 (1-) )= (5 - 1)- 流浪汉的期望效用函数为:vl( , )= (2 + 1(1- ) )+ (1- ) (3 +0 (1- ) ) = - ( 2 - 1)+3 从中 vG, vl 求出使 vG, v
11、l 最优的 , 则 , 为混合战略纳什均衡。为此,按最优一阶条件: vG( , )/ = (5 - 1)=0 vl( , )/ = -(2 - 1)=0得出:* = 0.5 ; *= 0.2为混合战略纳什均衡。上述混合战略纳什均衡可以解释为:如果政府预测流浪汉选择寻找工作的概率严格小于 0.2 则政府的唯一最优选择的战略是不救济,如果政府预测流浪汉选择寻找工作的概率严格大于 0.2 则政府的唯一最优选择的战略是救济;如果流浪汉预测政府选择救济的概率严格小于 0.5 则流浪汉的唯一最优选择的战略是寻找工作,如果流浪汉预测政府选择救济的概率严格大于 0.5 则流浪汉的唯一最优选择的战略是游荡。上述
12、例子很显然看出,参与人选择纯战略的概率分布不是由自已的支付决定的,而是由对手的支付决定的。例二 监督博弈监督博弈包括:税收检查、质量检查、对雇员监督、惩治犯罪等一系列十分有现实意义的博弈问题。下面例子是税收检查:纳税人逃税 不逃税 检查 税收机关不检查 C 表示检查成本,F 表示罚款,a 表示应交税款,并假设 CIEDE PNE MNE第二章 完全信息动态博弈一、博弈的扩展表达式在静态博弈中,参与人的行动是同时进行的,参与人并未考虑自身的行动对别人的影响,亦未考虑别人的行动。而在动态博弈中参与人的行动是有先后顺序的,后行者观察到先行者的行动,并根据获得先行者的行动信息而采取对策。对于动态博弈用
13、扩展表达式来表示。扩展表达式包括以下六个要素:1.参与人集合;2.参与人顺序;3.参与人行动空间;4.参与人信息集 每次行动时参与人知道什么;5.参与人支付函数;6.自然选择的概率分布。在静态博弈中,战略式用博弈矩阵来表示,在动态博弈中扩展式用博弈树来表示。二、子博弈精炼纳什均衡子博弈精炼纳什均衡是泽尔腾(1965)解决动态博弈问题所引出的,办法是把纳什均衡中把不可置信的纳什均衡剔除。为了给出这概念的定义,首先给出“子博弈 ”的概念。子博弈粗略而言是博弈树中从一个决策点开始的一个分支。准确来说是用下面定义。定义:一个博树的子博弈是由一个决策点 x 和它的所有所有后续结所组成,并满足以下条件:(
14、1)x 是单结信息集;(2)如果 x1 是 x 的后续结而 x2 是与 x1 同属于原博弈的一个信息集,则 x2 亦在子博弈中,即不破坏原博弈的结构。下面定义子博弈精炼纳什均衡。定义:扩展式(博弈树)的战略组合 s=(s1, ,si,sn)是一个子博弈精炼纳什均衡,如果:(1)它是原博弈的纳什均衡;(2)它在每个子博弈上给出纳什均衡。逆向归纳法是求解子博弈精炼纳什均衡最简便的方法,亦即由下而上求优。三、斯坦克尔格寡头竞争模型在第一章中我们研究过库诺特静态博弈寡头竞争模型。在这节研斯坦克尔格动态博弈寡头竞争模型,它是在 1934 年由斯坦克尔格给出的。设有两个企业:企业 1 和企业 2 垄断某产
15、品市场,设企业 1 为领头企业先选择产品产量为 q1,企业 2 根据企业 1 的产量选择产量为 q2。设产品的价格为P=a - q1 - q2第企业 1 的收益为1( q1 ,q2 )= q1 (P-c) = q1 ( a - q1 - q2 -c)第企业 2 的收益为2( q1 ,q2 ) = q2(P-c) = q2 ( a - q1 - q2 -c)求子博弈精炼纳什均衡。用逆向求解法,先对企业收益求最优 2( q1 ,q2 )/ q2 = ( a - q1 - q2 -c) - q2 =0q2 = ( a - q1 -c)/2 即 q1 在确定下的反应函数。代入1 ( q1 ,q2 )得
16、出1( q1 ,q2 )=q1 (a - q1 - ( ( a - q1 -c)/2 ) -c)对 1( q1 ,q2 )求最优 1( q1 ,q2 )/ q1 = a - q1 ( a - q1 c)/2 ) -c =0得出 q1* =(a-c)/2并得出 q2* =(a-c)/4而在静态博弈库诺特模型中q1* = q2* =(a-c)/3从本例中可看到“先动优势 ”。第三章 不完全信息静态博弈不完全信息库诺特模型有两企业,企业 1 和企业 2 生产同一种产品,在同一市场上进行决定产量的博弈竞争。设价格是而企业总产量的函数:p = a - q1- q2企业 1 的产品单位成本为 c1 是共公
17、知识,是确定的;企业 2 产品单位成本 c2 有两种类型,即 c2L , c2 H。企业 1 只知道企业 2 低成本的概率为 ,高成本概率为 1- 。第 i 个企业的利润为:i= qi(a - q1 - q2- ci)为了求纳什均衡,确定两企业的产量,使两企业利润最大化。对于第二个企业,最优化条件为:2/ q2= ( q2(a-q1-q2-c2) )/ q2 =0得出: q2*(q1,t)=(a-c2-q1)/2 其中 t=a-c2因此,q2L*=(a-c2L-q1)/2 ; q2H*=(a-c2H-q1)/2 对于第一个企业,则要求企望期最优,期望值为:E 1= q1(a-q1-q2L-c1
18、 )+ (1- ) q1(a-q1-q2H-c1)求最优化条件得出: (a-q1-qL2-c1 )-pq1+ (1- )(a-q1-qH2-c1 )- (1-P) q1=0 (a-qL2-c1)+ (1- ) (a-qH2-c1)- 2 q1=0q1*=( (a-q2L-c1)+ (1- ) (a-q2H-c1) )/2现解得方程为:q1*=( (a-q2L*-c1)+ (1- ) (a-q2H*-c1) )/2q2L*=(a-c2L-q1)/2 ; q2H*=(a-c2H-q1)/2若设 =1/2 , a=2 , c1=1 , c2L=3/4 , c2H=5/4 ,则得出:q1*=1/3 ;
19、 qL*2=11/24 ; qH*2 =5/24第四章 不完全信息动态博弈一、 不完全信息动态博弈定义在不完全信息博弈中, “自然”首先选择参与人的类型,参与人知道自己的类型,其它参与人不知道,只从一些信息产生对类型的分布概率的信念(称为先验概率) ,自然选择后,参与人采取行动,后行者能观察到先行者的行动。这就产生两个很有意思的问题:第一个问题是,不完全信息博弈中先行知道后行者能观察到自已的行动,而行动就有可行暴露自身所属的类型,这是先行者不希望的,因而先行者往往采取一种行动去迷惑后行者,使后行者误判;第二个问题是,后行者可能从先行者的行动中对先验概率修正,而使自身获益,修正后的概率称为后验概
20、率。二、精炼贝叶斯均衡的定义定义:精炼贝叶斯均衡是一个战略组合 s*()= ( s1*(1) , sn*(n) ) 和一个后验概率 P=(p1,,pn)组合,满足:(1) S*i(s-i, i)=argmaxpi(-i ah-i )ui(si,s-i, i)(2) pi(-i | ah-i )是从先验概率 通过观察到 ah-i 使用贝叶斯法则得到的后验概率三、举例 用负债比例显示企业质量上世纪五十年代以来,经济学家直研究什么因素决定企业资本结构(资本负债率) ,资本结构的信号传递理论是该领域最有影响的理论之一。这一理论证明,如果内部经理人与外部投资者之间存在信息不对称,资本结构就可以通过传递内
21、部信息对企业的市场价值发生影响。下面介绍罗斯(1977)模型。假设企业经理知道企业利润真实分布函数,投资者不知道;企业利润分布函数是根据一阶隨机占优排序的(即越好的企业高利润的概率越高) 。设经理的效用是企业市场价值的增函数,但企业破产,经理将受到惩罚。经理使用企业负债比向投资者传递企业利润分布信息,投资者把较高的负债比看作是企业高质量的表现,由于低质量的企业经理人不敢过渡举债,因为破产经理将受到惩罚。假定博弈有两个参与人,即企业经理与投资者,并且博弈有两个时期。令 为企业第二时期的利润并在区间0, 上均匀分布。经理知道真实情况,投资者只知道其分布概率为 ()。第期企业经理首先选择负债水平为
22、D,投资者根据 D 确定企业的市场价值。经理的目标是极大化企业 1 期市场价值和 2 期期望价值的加权平均值,即:u(D, V0(D), )=(1-) V0(D)+ (/2-LD/ )其中 V0(D)是给定负债水平为 D 时第 1 期企业市场价值, /2 为 2 期市场价值, D/ 为破产概率, L 为破产惩罚, 为权数。并假定为分离均衡。首先注意:2u(D, V0(D), )/D = L/ 20即质量越高的企业越不怕负债。另一方面注意,当经理选择负债水平为 D 他预测投资者从 D 推得企业利润为 ,从而选择 V0(D) ,期望值 (D)为 市场价值为V0(D)= (D)/2把上式代入 u(D, V0(D), )求一阶最优条件得出:(1- ) (D)/ D)/2- L/ =0 可改写为2 L D/ -(1- ) =0 解上述微分方程得出:D()= (1- ) 2 /4 L +C由于 V0(D)= /2 得出V0(D)=(D-c)L /( 1- ) ) 1/2