1、第四章 完全信息动态博弈,更为现实的考虑是将静态博弈动态化,动态化后,纳什均衡这一概念是否仍然有效呢?答案是部分有效的。如果不存在动态不一致,那么纳什均衡在完全信息动态博弈中仍不失为一个有用的均衡概念,但纳什均衡概念本身并不能保证不出现动态不一致,为了克服这一点在纳什均衡的基础上生产了所谓子博弈完美均衡。而这一章,我们将围绕这子博弈完美均衡来展开。,第一节 完美信息与完全但不完美信息,完全信息动态博弈可以分为两类,即完美信息与完全但不完美信息。所谓的完美信息博弈,是指博弈中的后行动者始终能够观察到前行动者的行动,因而动态博弈中不存在参与者同时行动这样的情况。而完全但不完美信息博弈,则指动态博弈
2、中,至少存在两个参与者同时行动的情况,因而“后行动者”无法观察到“前行动者”的行动。我们不妨用两个例子来加以说明。,例4.1 动态囚徒困境,例4.2 取消管制,定义4.1 完美信息动态博弈就是不存在同时行动的完全信息动态博弈。 显然,运用策略式来描述动态博弈会非常不便,特别是当信息不完全时更是如此,为了更简便地描述动态博弈,我们将引入一种新的博弈表达式扩展式。,第二节 动态博弈的扩展式,现在我们将例4.1和例4.2的扩展式表达如下:,第三节 策略和结果,策略是“万全之策”,而不再是单纯的行动,如何理解这句话呢? 1、动态囚徒困境中囚徒2的策略表4-1 囚徒2的四个策略,2、蜈蚣博弈中参与者1的
3、策略,关键是理解DL,DR也是策略。 所以说,策略是一个“万全之策”。 定义4.3 对于博弈,参与者P(h)的一个策略sP(h)(h)就是一个函数,它将每一个可能的历史h映射成行动空间AP(h)(h)中的一个行动ap(h)。 上述策略的定义实际上就是指当历史进行到某个阶段时,当轮到参与者i行动时,规定了他如何行动。例如,在蜈蚣博弈中,对于参与者1而言,一个策略就是当历史为空历史时,规定了参与者1如何行动,当历史为(C, C)时,规定了参与者1又如何行动,,因而DL和DR就是参与者1的策略,至于历史(C, C)会不会发生那是另外一个问题,策略所要求的就是一旦出现了某个历史我应该如何做,而不能出现
4、不知所措的情况。 通过上面的说明我们看到,有什么样的策略组合就会有什么样的历史,但历史并不等于策略。为此,我们引入结果函数,即对于任意 ,存在某个,使得O(s) = h。参与者的收益函数u就是定义在结果上的函数。,例如,在蜈蚣博弈中,可知参与者1有四个策略CL、CR、DL和DR,参与者2有两个策略C和D,因而策略组合有8个,其相应的结果函数为O(CL, C)=(CCL) u1(O(CL, C) = 1和u2(O(CL, C) = 2;O(CR, C)=(CCR) u1(O(CR, C) = 0和u2(O(CR, C) = 0;O(Cx, D)=(CD) u1(O(Cx, D) = 3和u2(O
5、(Cx, D) = 1;O(Dx, x)=(D) u1(O(Dx, x) = 2和u2(O(Dx, x) = 0。 其中x代表任意行动。上面的结果函数给了我们两点启示:一是,要得到全历史实际上只需行动计划就可以了,不一定需要去考察所谓的“完全之策”,例如,O(D, x)=D=O(Dx, x)是一样的,这样做的好处是能够简化分析,但在观念上,我们必须牢记策略是“万全之策”。二是,图4-5的蜈蚣博弈实际上与图4-6中的博弈完全等价,这就更为直观地指出了策略DL和DR的性质。实际上,汤普森(Thompson, 1952)论证了对于任意两个等价的扩展式博弈,至少存在4种转换方式,通过转换,可以把复杂的
6、扩展式博弈变成最简单的形式去分析。,3、紧跟领导者(follow leader)博弈的策略,第四节 纳什均衡与子博弈完美均衡,一、纳什均衡 纳什均衡概念的核心就在于,每一个参与者的策略都是给定其他参与者策略下的最优反应,并且对任意参与者成立。即便博弈是动态的,这一点也不会改变。那么,将静态博弈中的纳什均衡概念运用到动态博弈中应该是一个不错的思路,尽管这样做可能存在问题。,二、承诺与威胁,动态博弈中会出现先行动,后行动的问题。 承诺和威胁是否可信,是动态博弈中先行动的参与人是否该相信后行动的参与人选择某个行动的判断的问题。后行动的参与人所选择的行动对先行动参与人有利的,那么,后行动参与人的这一选
7、择对先行动参与人来说是一种承诺,相反,如果不利,那么,后行动参与人的这一选择对先行动参与人来说是一种威胁。 定义:一个威胁或承诺,如果发出这一信息的人执行它比不执行它花费更多的成本,则称为不可置信的威胁或承诺。,c1c2等表示一个向量,每个向量的第一个行动表示参与人1选择L时,参与人2选择的行动,第二个行动表示参与人1选择R时,参与人2选择的行动。比如说:c1c2表示,当参与人1选择L时,参与人2选择c1,而当参与人1选择R时,参与人2选择c2。 根据纳什均衡的定义,易知该动态博弈存在两个纳什均衡:(R, c1d2)和(L, d1d2),分别对应着扩展式的(R,d2)和(L,d1)。对于均衡(
8、R, c1d2),这个纳什均衡含有不合理的因素,在现实中根本不会出现,原因就在于参与者2在历史(L)“威胁”出c1是不可置信的,因为出d1要比出c1优(21)。之所以出现这种情况,是由于当参与者1的策略为R时,历史进行到L的可能性为零,因此参与者2在历史L下无论采取什么行动都不会对他的最终收益造成影响。这意味着,纳什均衡这个概念对参与者2在不可能发生的历史L下如何选择并未做出规定,参与者2就有可能乱选(像一个非理性的人一样),而纳什均衡本身假设参与者是理性的,这就造成参与者2的策略是动态不一致的 。一个动态不一致的策略肯定不会是一个最优的策略。,我们也可以这样来理解参与者2的行动,参与者2之所
9、以威胁当参与者1出L时,他要选择c1,目的在于通过威胁使参与者1选择有利于参与者2的R,因为在参与者1选择R下,参与者2通过选择d2,能得到3的报酬,明显好于当参与者1选L,参与者2选d1时的收益2。但我们要问的是,如果参与者1不顾参与者2的威胁而选择了L,参与者2可能会出c1吗?在参与者2为理性是公共信息的条件下,参与者2选择c1的报酬为1,而选择d1的报酬为2。由于d1要优于c1,因而参与者1没有理由相信参与者2会实施他的威胁,也就是说,参与者2的策略c1d2是一个不可置信的威胁。如果威胁成真,c1d2就是一个动态不一致的策略,因为参与者2事前是理性的,但在博弈进行到(L)时,他却成了一个
10、非理性的人(选择了c1,而不是d1)。出现上述问题的原因,在于一个纳什均衡只要求在博弈的总体上,参与者的策略须为均衡,而对博弈进行到某个部分时是否仍为均衡没有要求,这就可能导致总体和局部的冲突,产生不合理的结果。,例1:市场进入博弈的威胁,参与人1表示进入者,可选择行动进入E和不进入O,参与人2位在位者,可选择行动低价L和高价H。在位者威胁说,如果进入者进入,他将选择低价。试问这一威胁是否可信?回答是否定的,因为当进入者已经进入,在位者选择低价的支付为-40,而选择高价的支付是80,后者大于前者。,例2:质量选择博弈,1,2,(1,0),(2,-0.5),(0,0),(1.5,2),低,高,不
11、买,买,不买,买,参与人2宣布,如果参与人1提供低质量,他就不买,这是一种威胁;如果参与人提供高质量,他就买,这是一种承诺。这些威胁和承诺是可信的。但是,如果他宣布,不管参与人1提供什么质量,他都买,那么这种承诺是不可信的。,例3:借贷博弈,1,2,(10,20),(-5,35),(0,0),借,不借,还,不,试分析参与人1借给参与人2的钱这个承诺可信吗?如不可信,如何使他的行动可信。,要消除动态博弈中的不可置信威胁,就需一个比纳什均衡更强的均衡概念。它不仅在整个博弈中是均衡的,而且在局部也是均衡的;不但在现在是均衡的,在将来也应是均衡的。只有满足这个要求,博弈的参与者才能实现策略的动态一致性
12、,这就导致了子博弈完美均衡概念的产生。,图4-9所示博弈存在5个子博弈:(DE),(DF),(D),(C)和原博弈(N, H, P, u)。 图4-10则给出了不是子博弈的情况。在图4-10中,虚线围起来的部分不是子博弈因为它不构成一个完整的扩展式博弈。,D,1,C,2,1,图4-10 不是子博弈的例子,不是子博弈,不是子博弈,定义:如果在一个完美信息的动态博弈中,各博弈方的策略构成的一个策略组合满足,在整个动态博弈及它的所有子博弈中都构成纳什均衡,那么这个策略组合称为动态博弈的一个“子博弈完美纳什均衡”。 寻找子博弈完美均衡的基本方法是逆向归纳法。,定义4.8 逆向归纳法一般程序: 第一步,
13、从扩展式博弈的终点开始,以找到该博弈的每一个最后子博弈(它不再包含任何其他更小的子博弈),然后求出纳什均衡,并计算出相应的收益。 第二步,将每一个最后子博弈的起点变成结束点,将计算出的每一个最后子博弈在纳什均衡下的收益写在其下方,我们就获得了一个新的扩展式博弈(或新的博弈树),称为压缩的扩展式博弈。这样经过一次压缩,就剔除了最后子博弈。 第三步,重复第一步和第二步,并重新得到一个压缩式博弈和相应的纳什均衡。这个过程一直进行到最后只剩下唯一一个子博弈为止,这时在逆推过程中找到的一系列子博弈的纳什均衡组合就是该扩展式博弈的一个完美均衡。 第四步,如果在逆推过程中没有遇到多重均衡,那么这个策略组合就
14、是唯一的完美均衡;如果遇到了多重均衡,就需要对子博弈中每一个可能的均衡重复以上步骤,从而得出所有的完美均衡。,1、逆向归纳法求解函数式问题的方法:,考虑如下一个完全且完美信息动态博弈: a)参与人1可从行动集合A1中选择一个行动a1; b)参与人2观察到行动a1后从行动集合A2(a1)中选择一个行动a2; c)两人的收益分别为u1(a1,a2)、 u2(a1,a2)。 参与人1 在决策的时候应该怎么考虑并采取行动呢?如果参与人是理性的,那么就要求参与人在时期1 的选择,到了时期2 仍然是最好的选择。但是他怎么确保他的选择到了时期2 还是最好的呢?如果他知道参与人2 将来会怎么选择,显然就最好不
15、过了这正是逆向归纳法的基本出发点:虽然我不知道参与人2 会怎么选择,但是我可以推测我的每一个行动之后参与人2 的可能反应,并寻求到他的最优反应,然后再回头考虑我的最优选择。,u1(a1,r2(a1),2、通过博弈树进行逆向归纳法求解 对博弈树表达的完美信息扩展博弈,可以从最小的子博弈开始,逆向推导出博弈的子博弈完美均衡解。 例1:一种进入博弈的子博弈完美均衡,进入博弈中,首先考虑最小的子博弈(即图中的(b)),在位者将如何选择?显然,选Acquiesce 得到1,而选Fight 只能得到0,因此它应选Acquiesce。因此在博弈中我们把Fight 所在的分支画成灰线,表示在位者放弃了该项可选
16、行动。,然后再看挑战者如何选择,容易发现,挑战者选择Out,则终点历史为(out),挑战者得到1,若挑战者选择In,则终点历史将为(In, Acquiesce)为什么?因为在位者将放弃选择Fight从而挑战者得到2,因此挑战者将选择In。我们可将Out 也化成灰线。 而最后的子博弈完美均衡路径,也就是终点历史是(In, Acquiesce)。图中还唯一明确的线条,表示的就是子博弈完美均衡的路径。,例2,在图4-11所示的小蜈蚣博弈中,如果从正面求解子博弈完美均衡显然非常困难,而用逆推法却非常简单。逆推到最后一个阶段的结果如图4-12。,1,(1, 0),(-1, 3),D,C,图4-13 小蜈
17、蚣博弈的最后阶段,2,定理4.1 存在性定理 只要扩展式博弈是有限的,即参与者有限,行动空间有限,博弈的阶段有限(不是无穷进行下去),那么扩展式博弈至少存在一个子博弈完美均衡。 定理4.2 等价性定理 s*为有限扩展式博弈 的所有子博弈完美均衡的集合,s#为该扩展式博弈运用逆推法找到的所有子博弈完美均衡的集合,那么s*=s#,即子博弈完美均衡与逆推法是完全等价的。 命题4.1 在扩展式博弈 中,如果每一个全历史对应的参与者的收益都不相等,那么存在唯一的子博弈完美均衡。 逆推法虽然在求解完美均衡上非常有效,但也有缺陷,当博弈为无穷动态博弈时,我们将无法运用逆推法,第5节 经典举例,产量领先制的S
18、tackelberg 寡头竞争模型。 市场厂商的行动也是选择业务量或用户数,厂商1是领先厂商,首先选择业务指标q1,竞争对手2是跟随厂商,观测到q1后,选择自己的业务指标q2。 因此,这是个完美信息动态博弈。假定逆需求函数为,P(Q)=a-(q1+q2)厂商有相同的不变单位成本c0(如果c不为常数时, ,b0,该如何求解)。那么,支付(利润)函数为: Ui(q1,q2)=qi (P(Q) - c),i=1,2 求解这个博弈问题“子博弈完美纳什均衡”的逆向归纳法。,Stackelberg 寡头竞争模型博弈解,2、工会与企业博弈,在一个劳动力市场上存在一个垄断性质的工会,工会首先决定工资率,而后企
19、业根据工资来决定需要雇佣多少工人。工会的效用函数为U(w, L),其中w为工会向企业开出的工资水平,L为就业量。假定U(w, L)都是w和L的增函数,即工资率越高,就业量越高,工会取得的成绩越大。企业的利润函数为, 其中R(L)为企业雇佣L名工人在最优的生产和产品市场决策下可获得的收入,假定R(L)为凹函数,即 , ,如图4-16。该博弈的扩展式=N, H, P, u如下:,L(w)是w的函数,我们把坐标轴旋转,得到w-L坐标系。,例3:开金矿问题,开金矿博弈的基本问题是这样的:甲在开采一价值4万元的金矿时缺1万元资金,而乙正好有1万元资金可以投资。设甲想说服乙将1万元资金借给自己用于开矿,并
20、许诺在采到金子后与乙对半分成,乙是否该将钱借给甲呢?而乙最需要关心的就是甲采到金子后是否会履行诺言跟乙平分,因为万一甲采到金子后不但不跟乙平分,而且赖账,乙会连自己的本钱都收不回来。,问题1:上述博弈中的许诺是可信的吗?如不可信怎么使得甲的许诺可信,即约束甲的行为。,乙,甲,借,不借,分,不分,(1,0),(0,4),(2,2),乙,(1,0),问题2:如果乙在甲违约可以用法律武器,而且法律公正,乙打官司可以获胜。则这时博弈情况有什么同。乙的威胁是否可信?甲的许诺是否可信?,打,不打,要保持法律制度公平,必须要满足两方面的要求,一是对人们正当权益的保护力度足够大,二是对侵害他人利益者有足够的震
21、慑作用,如果达不到这种水平,法律制度的作用就是有限的甚至完全无效。如以下的博弈收益:,乙,甲,借,不借,分,不分,(1,0),(0,4),(2,2),乙,(-1,0),打,不打,法律假设不够完善,执法能力差,并且存在司法腐败,有理由不一定打赢官司,赢了官司却反而输了钱的事情。 问题三:乙打官司的威胁是否可信?,4、开放式基金赎回,中国2006年最热的怕就属“基金热”了,但基金的存在却可能加大股市的波动。通常,当股市出现大幅下跌时,基金购买者为了保住基金净值,有可能出现大面积的基金赎回,这反过来又进一步加大股市的下跌。这里我们分析一个简单的基金赎回潮模型。 这个博弈的扩展式=N, H, P, u
22、如下: (1)参与者集合:N = 1,2。 (2)全历史集合:设W表示赎回,S表示不赎回,H =(W, W), (W, S), (S, W), (S, S), (W, W), (S, S), (W, S), (S, S), (S, W), (S, S), (S, S)。 (3)参与者函数:P()=1, 2,P(S, S) =1, 2。 (4)偏好:对于任一投资人而言,收益越大越好,相应收益如图4-19。,很明显,这个模型存在两个子博弈。根据逆推法,我们先从最后一个子博弈开始分析。显然,在长期内,对于任一投资人而言,无论对手如何行动,选择赎回都是最优策略,即赎回是投资人的严格优策略。因而最后一个
23、子博弈的纳什均衡为(赎回,赎回),相应的收益为(R , R)。利用上述结论,将其结果带入到短期,就得到图4-20。,1,2,W,S,W,S,W,S,(r, r),(D, 2r-D),(2r-D, D),(R, R),(2R-D, D),(D, 2R-D),(R, R),W,W,S,W,S,S,1,2,图4-19 基金赎回1,短期的情况,从图4-20可以看出,这个子博弈存在两个纳什均衡:一个是(赎回,赎回),一个是(不赎回,不赎回)。这说明在基金赎回这个模型中,存在着两个子博弈完美均衡解:(1)在短期,两个投资人都赎回,即(W, W),(W, W),收益为(r , r)。,实际上由于短期都赎回,
24、所以长期并不会发生,但我们仍需要指明参与者(如果走到了长期)的纳什均衡策略。(2)在短期,两个投资人都不赎回,而在长期都赎回,即(S, W),(S, W),收益为(R, R)。第一个完美均衡实际上就是对基金公司的一次赎回潮,伴随着的就是股市的暴跌和基金公司总资产的加倍缩水。需要指出的是,这个模型虽然简单但却说明了开放式基金的存在会加大股市的波动,如果开放式基金控制的资金非常庞大,那么这种可能性产生的后果有可能会非常严重。,5、国际贸易与关税,6、讨价还价博弈,(1)三回合讨价还价 假设有两人就如何分享1万元现金进行谈判,并且定下规则:首先由甲提出一个分割比例,对甲提出的比例乙可以接受也可以拒绝
25、;如果乙拒绝甲的方案,则他自己应提出另一个方案,让甲选择接受与否,在这个循环中,只要任何一方接受对方的方案,博弈就结束,而如果方案被拒绝,则被拒绝的方案与以后的讨价还价不再有关系。由于讨价还价的谈判和利息损失等,双方的利益都要打一个折扣(0 1),称为“消耗系数”。如果只有三个回合,到第三回合乙必须接受甲的方案: 第一回合,甲的方案是自己得S1,乙得到10000-S1,乙可以选择接受或不接受,接受则谈判结束,如果乙不接受,则开始进入下一回合;,第二回合,乙的方案是甲得S2,自己得10000-S2,由甲选择是否接受,接受则双方得益为S2和(10000-S2),谈判结束,如甲不接受则进行下一回合;
26、 第三回合,甲提出自己得S,乙得10000-S,这时乙必须接受,双方实际得益为S和(10000-S)。,1,2,出S1,接受,(S1 ,10000- S1),1,不接受,出S2,接受,不接受,出S,(S2 , (10000-S2)),(S, (10000-S)),注意:一是第三回合甲提出的分割比例S,10000-S,乙必须接受,并且这一点两博弈方都知道;另一是该博弈每多进行一个回合总得益就会下降一个比例,因此,谈判拖得越长对双方都可能越不利。,7、委托代理问题,委托代理问题涉及委托人和代理人之间的博弈关系,核心内容是两人动态博弈。 如企业雇佣工人生产,店主雇佣店员销售商品,企业主聘请经理管理企
27、业,业主请物业公司管理物业,人们聘请律师为他们辩护等。这些关系的关键特征是委托方的利益与被委托方的行为有密切关系,但委托方不能直接控制被委托方的行为,甚至对被委托方的工作的监督也有困难,只能通过报酬等间接影响被委托方的行为。除了有书面合同、协议,或至少有口头委托明显委托关系以外,还有大量没有明显的委托关系,但也有一方利益与另一方的行为有关。如市民与政府官员、基金购买者与基金管理者等。 委托方称为“委托人”,被委托方称为“代理人”。委托代理关系有多种不同的情况,其中最关键的差异是监督的难易。如流水线装配工的工作比较容易监督,但外派采购员、基金管理者的工作很难监督。如果代理人的工作情况在成果中完全
28、反应出来,那么就不存在监督问题。但工作成果往往不完全,取决于代理人的工作,如律师努力工作并不能保证打赢官司,商店的销售额也不只是取决于店员的工作态度,在这种情况下监督问题就无法避免。 因此,委托人要设计一种委托合同,激励代理人。这种设计问题也称为“激励机制”,其核心主要是工资、奖金或股权等薪酬制度内容。 1)无不确定性的委托代理模型 假设代理人的工作成果没有不确定性,也就是代理人的产出是努力程度的确定性函数。因此委托人可以根据成果掌握代理人的工作情况,不存在监督问题。此外,假设委托关系基于一种标准合同,委托人的选择是提供或不提供这份合同,不选择支付给代理人的报酬。代理人的选择是首先是是否接受合
29、同,其次是否努力工作,也就是只有努力和偷懒两种努力水平。对于这个问题,也就是三阶段的动态博弈模型。,第一阶段,R(0)表示没有代理人的服务时委托人的收益, 在实际问题中R(0)有不同的情况,当代理人的服务对委托人至关重要R(0)可能是0甚至负值,不重要时R(0)也可以为正直。,1,2,委托,不委托,接受,拒绝,(R(0),0),2,(R(E)-w(E), w(E) -E),努力,偷懒,(R(0),0),(R(S)-w(S), w(S) -S),代理人先在第二阶段选择是否接受委托。若不接受,结果与委托人不委托没有区别。 代理人在第三阶段选择努力(高努力水平)还是偷懒(低努力水平)。如果代理人选择
30、努力,那么委托人得到较高的产出R(E),但要支付较高的报酬w(E),代理人得到较高的报酬w(E),但有较高的负效用-E。如果代理人选择偷懒,那么委托人得到较低产出R(S),给代理人支付较低报酬w(S),代理人得到较低报酬w(S),但只有较低的负效用-S。 在这个博弈中,两波一方都清楚自己和对方的得意情况,也能观察到对方的选择(即使委托人无法观察到代理人第三阶段的选择,因为委托人能观察到代理人的工作成果,而工作成果与努力程度有确定性对应,因此委托人仍然可以完全清楚代理人的选择)因此本博弈是个完全且完美信息的动态博弈,可以用逆向归纳法进行分析。,首先判断w(E)-Ew(S)-S,也就是w(E)w(
31、S)-S+E 代理人会选择努力。上述不等式也称为代理人努力的“激励相容约束”,也就是委托人在自己提出委托和代理人接受委托的前提下,促使代理人努力工作必须满足的条件。其经济含义是,只有当努力工作的代理人得到的报酬,达到在偷懒的代理人也能得到的基本报酬以上,还有一个至少不低于能补偿努力工作比偷懒更大负效用的增加额时,代理人才可能自觉选择努力工作。 现在回到第二阶段代理人对是否接受委托的选择。由于对应具体得益情况不同,第三阶段代理人的选择有努力和偷懒两种可能,分两种情况讨论。,代理人选择接受而不是拒绝的条件分别是w(E) E0和w(S) -S0。这两个不等式分别称为两种情况下的“参与约束”,也就是代
32、理人愿意接受委托人委托的基本条件。 最后回到第一阶段委托人的选择。如果代理人选择拒绝,那么委托人的选择其实是无所谓的。如果代理人第二阶段选择接受,那么仍然有两种情况。,2,接受,拒绝,(R(E)-w(E), w(E) -E),(R(0),0),(R(S)-w(S), w(S) -S),2,接受,拒绝,(R(0),0),在第一种情况下,如果R(E)-w(E)R(0),委托人选择委托。 在第二种情况下,R(S)-w(S)R(0),委托人选择委托。,1,委托,不委托,(R(E)-w(E), w(E) -E),(R(0),0),(R(S)-w(S), w(S) -S),1,委托,不委托,(R(0),0
33、),2)有不确定性但可监督的委托代理问题,代理人的努力成果有不确定,但委托人对代理人有完全监督的委托代理模型。 首先,由于代理人的努力和成果之间不再完全一致,因此就有一个根据工作情况还是成果支付报酬的问题。一般来说,在委托人对代理人的工作有完全监督的情况下,通常是根据代理人的工作情况而不是工作成果支付报酬。这意味着产出不确定性的风险完全由委托人承担,根据是风险主要来源于环境或随机因素,与代理人的行为无关。委托人根据代理人的工作情况而不是工作成果支付报酬,也意味着代理人工作成果的不确定性直接影响的是委托人的选择,而不会影响代理人的选择,但会通过委托人的选择对代理人的利益产生间接影响。,1,2,委
34、托,不委托,接受,拒绝,(0,0),2,(20-w(E), w(E) -E),努力,偷懒,(0,0),(20-w(S), w(S) -S),0,0,高产0.9,低产0.1,(10-w(E), w(E) -E),高产0.1,低产0.9,(10-w(S), w(S) -S),假设模型中的不确定性表现在,有20和10单位两种可能的产出,代理人努力时产出20的概率是0.9,产出10的概率是0.1;代理人偷懒时反过来产出20的概率是0.1,产出10的概率是0.9。在假设R(0)=0,其他与前一个模型一样,并引用一个“自然”博弈方0反映不确定性。 这个博弈仍然是完全且完美信息的动态博弈,仍然可以逆向归纳法
35、分析。 不难发现对于代理人选择来说,该问题与前一个模型其实没有差别。因为代理人的报酬和努力的负效用都与工作成果没有关系,高产和低产并不直接影响他的收益。因此,代理人在本模型中努力或偷懒的激励相容约束和参与约束条件与前一个模型完全相同,也就是 w(E)-Ew(S)-S时选择努力, w(E) E0和w(S) -S0时会接受委托。,现在分析委托人在第一阶段的选择,也是不同之处。由于本模型中委托人对代理人的工作有完全的监督,也完全清楚代理人的选择,因此仍然有两种情况。 假设代理人会选择接受委托并努力工作,那么委托人有0.9的可能性获得对应高产出的得益,有0.1的概率获得低产出的得益。对于风险中性的委托
36、人来说,如果选择委托的期望得益大于不委托,即0.920-w(E)+0.110-w(E)0 那么他应该选择委托,反之选择不委托。 在代理人会选择接受委托并偷懒工作,则委托人有0.1的概率获得高产出的得益,有0.9的概率获得对应低产出的得益,如果选择委托的期望得益大于不委托,即0.120-w(S)+0.910-w(S)0 那么他应该选择委托。,3)有不确定性且不可监督的委托代理问题,代理人的工作成果有不确定性,而且委托人无法监督代理人工作的委托代理模型。 现在委托人不可能根据代理人的工作情况支付报酬,只能根据代理人的工作成果支付报酬,除非支付固定的报酬。 该模型与前一个模型的差异主要有两方面,一是
37、“自然”最后一阶段不是分别针对代理人的两种选择进行选择。这种差异主要影响的是委托人对高产或低产究竟是代理人努力或偷懒的结果,还是随机因素影响的结果的判断。二是双方得益函数中的报酬现在是工作成果的函数而不是努力程度的函数。,1,2,委托,不委托,接受,拒绝,(0,0),2,(20-w(20), w(20) -E),努力,偷懒,(0,0),(20-w(20), w(20) -S),高产0.9,低产0.1,(10-w(10), w(10) -E),高产0.1,低产0.9,(10-w(10), w(10) -S),0,在该模型中,双方的选择和最后的均衡与前面都有较大的区别。因为代理人的收益也直接受到不
38、确定性的影响。委托代理模型主要的问题是如何激励代理人努力工作,主要分析促使代理人选择努力的激励相容约束、参与约束,以及委托人相应选择委托的条件。 假设代理人风险中性的情况下,只要他选择努力的期望得益大于选择偷懒的期望得益,即0.9w(20)-E+0.1w(10)-E0.1w(20)-S+0.9w(10)-S0那么他就会选择努力工作,上述不等式就是该模型的激励相容约束。 在第三阶段代理人选择努力工作情况下,在倒推回第二阶段,则只要他选择接受的期望得益大于不接受的得益0,即0.9w(20)-E+0.1w(10)-E0 那么代理人就会选择接受委托,该不等式是模型的参与约束。,现在讨论委托人在第一阶段
39、的选择。虽然委托人无法看到代理人在第三阶段的选择,但对代理人的决策思路还是清楚的。给定模型中的E、S、w(20) 、w(10)的数值,他完全可以知道代理人是否会选择努力。假设委托人判断代理人会选择努力,那么根据模型中的设定,委托人的期望得益为0.920-w(20) +0.110-w(10)。对于风险中性的委托人来说,当 0.920-w(20)+0.110-w(10)0 时,他就会选择委托。这是委托人选择委托的基本条件。,4)选择报酬和连续努力水平的委托代理问题,不仅努力成果不确定且不可监督,而且委托人可以选择报酬函数(也就是薪酬制度),代理人在连续区间中选择努力水平e的委托代理模型。代理人有正
40、直的机会成本,即不接受委托的利益(其他工作的报酬或闲暇的效用)U,并假设努力的负效用是努力水平的单调递增的凸函数C=C(e)。 代理人可以选择努力水平e分布在某个连续区间,其产出是e的随机函数,仍用R=R(e)表示。由于是不完全监督,委托人不知道e,只能根据R支付报酬,即w=w(R)。意味着w中至少部分是计件工作或利润提成。 这时w=w(R)= w(R(e)也是随机函数。 这样委托人的得益函数为R-w= R(e)- w(R(e),代理人的得益函数是w-C= w(R(e)- C(e)。 代理人的参与约束是在接受委托得到的利益不小于机会成本U,也就是w(R(e)- C(e)U,从参与约束的角度,在
41、代理人接受委托的前提下,委托人当然希望付出的报酬越小越好,因此实际的参与约束可以简化为w(R(e)=C(e)+U。这样委托人的得益函数就是R(e)- w(R(e)= R(e)- C(e)+U。,C(e)+U,R(e),e0,e,R,C,U,如上图所示,R(e)是凹函数, C(e)是单调递增的凸函数,那么e0就是途中R(e)曲线的切线与C(e)+U曲线的切线平行的努力水平。 在满足参与约束的条件下,代理人愿意接受工作但努力水平不一定是e0,因为代理人是根据自身利益最大化行为。要代理人自觉选择e0,e0也必须符合他自己的最大利益,即对其他任何努力水平e,都有 w(R(e0)- C(e0) w(R(e)- C(e) 这就是该模型的激励相容约束。满足激励相容约束条件意味着代理人的利益与委托人的利益完全一致,代理人的行为就会符合委托人的最大利益。,