1、博 弈 论,第一章 导论,1.1什么是博弈论(Game Theory),1.1.1 从游戏到博弈,游戏都有一些共同的特点:,1.都具有一定的规则;,2.都有一个结果;,3.策略至关重要;,4.策略和利益有相互依存性,一、博弈论概述,1.1.1 博弈论的定义 博弈论研究的是人与人之间利益相互制约下策略选择时的理性行为及相应结局。 豪尔绍尼(John C.Harsanyi)1994年诺贝尔经济学奖获奖致词:博弈论是关于策略相互作用的理论。博弈论研究人与人之间“斗智”的形式和后果,当人们利益存在冲突时,每个人所获得的利益不仅取决于自己所获取的行动,还依赖于其他人采取的行动,每个人都需要针对对方的行为
2、选择作出对自己最有利的反应。,3、博弈论的分类(1)合作博弈研究人们达成合作时如何分配合作得到的收益,即收益分配问题。 (2)非合作博弈研究人们在利益相互影响的局势中如何选决策使自己的收益最大,即策略选择问题。 (3)完全信息不完全信息博弈:参与者对所有参与者的策略空间及策略组合下的支付有充了解称为完全信息;反之,则称为不完全信息。 (4)静态博弈和动态博弈 静态博弈:指参与者同时采取行动,或者尽管有先后顺序,但后行动者不知道先行动者的策略。 动态博弈:指双方的的行动有先后顺序并且后行动者可以知道先行动者的策略。,博弈的分类及对应的均衡,1.1.2一个非技本性的定义 规定或定义一个博弈需要以下
3、几个方面: 1参与人(Player)(局中人)指博弈中的决策主体,他的目的是通过选择行动(或策略)以最大化自己的支付(效用)水平,参与人可以是自然人、团体、自然(“上帝”作为虚拟的参与人)。 2各个参与人各自可选择行动集(action set),Ai=ai,是其可以采用的全部行动的集合。一个行动组合(action proile)是一个由博弈中的n个参与人每个选取一个行动所组成的有序集a=(a1,a2,an)。 3. 参与人i的策略(strategy)是如下的一项规则:给定其信息集,该策略决定在博弈的每一时点他选 择何种行动。,参与人i的策略集(strategy set)Si=si是其可行策略的
4、集合。 策略组合(strategy profile)s=(s1,s2,sn)是由博弈的n个参与人每人选择一个策略所组成的一个 有序集。 4. 参与人i的得益(支)(payoff)ui(s1,s2,sn)表示 这样的含义: 在所有的参与人和自然都选择了各自的策略且博弈已经完成后, 参与人i获得的效用。 参与人i获得的期望效用,该期望效用是参与人i及其他参与人所选择的策略的函数。 5. 一个博弈的结果是指在博弈结束以后,建模者从行动、得益和其他变量的取值中所挑选出来的他所感兴趣的要素的集合。,1.2 几类经典的博弈模型 1.2.1 囚徒的困境(prisoners dilemma),这个例子本身就部
5、分奠定了非合作博弈论的基础。,1.2.2 智猪博弈猪圈里有两头猪:大猪和小猪,猪圈的一头有一个猪食槽,另头装有个按纽,控制着猪食的供应,按一下就会有10单位的猪食进槽,但谁按谁就要付出相当于2单位猪食的成本;当猪食进槽时,若大猪先到,大猪可吃到9单位;小猪先到,则小猪可吃到4单位,大猪吃6单位;若两者同时到,叫大猪可吃7单位,小猪吃3单位。,小猪,大猪,按,等,按,等,5 , 1,4,4,9,1,0,0,1.2.3 性别战1.2.4 斗鸡博弈,女,足球,芭蕾,男,足球,芭蕾,2 ,1,0,0,0,0,1, 3,A,B,进,退,进,退,3,3,2 , 0,0 ,2,0 ,0,1.2.5 市场进入
6、阻挠1.2.6 猜硬币博弈 1.2.7 石头剪子布,默许,在位者,进入者,进入,不进入,斗争,40,50,10,0,0,300,0,300,猜硬币方,正,反,正,反,盖硬币方,1,1,1,1,1,1,1,1,石头,剪子,布,石头,剪子,布,0,0,1,1,1,1,1,1,0,0,1,1,1,1,1,1,0,0,A,B,1.3 博 弈 的 结 构 和 博 弈 的 分 类 1.3.1 博 弈 中 的 博 弈 方一、单人博弈 实际上是最优化问题, 或 者是一个参与人与“自 然”的博弈。二、 双人博弈最常见、研究得最多的博弈 双人博弈中的两个博弈方之间并不总是相 互对抗的。(互补性问题) 掌握信息较多
7、的一方并不能保证获益大。个人追自身的最大利益并不能保证所得最优。三、多人博弈可能存在“破坏者” 与“联盟”。,1.3.2 博 弈 中 的 策 略博弈中独立决策、独立承担博弈结果的个人或 组织称为博弈方。博弈中各博弈方的决策内容称为“策略“,但应注意到并不是每个博弈方都有相同的可选略。如果在一个博弈中每个博弈方的策略数都是有 限的,则称该博弈为有限博弈;否则就称为 无限博弈。 1.3.3 博弈中的得益(支付,payoff)得益指在一个特定的策略组合下参与人得到效用水平, 即各个博弈方从博弈中所获得的利益.,一、 零 和 博 弈二、 常 和 博 弈三、 变 和 博 弈 国内常见的博弈论参考书: 1
8、.经济博弈论(第二版) 谢识予 编著 复旦大学出版社, 2002 2.博弈论与信息经济学 张维迎 著, 上海三联书店、上海人民出版社 3.博弈论施锡铨 著,上海财经大学出版社, 2002 4.Game Theory,1991,D.Fudenberg& J.Tirole 中译本,中国人民大学出版社,第二章 完全信息静态博弈,2.1 基 本 分 析 思 路 和 方 法博弈可以有两种不同的表达方式:策略式(Normal)表述和扩展式(extensive)表述,从 理论上来讲,这两种表述形式几乎是完全等 价的,但从分析的方便性来看,策略式更适 合表述静态博弈。在策略式表述中,所有参与人同时选择各自的
9、策略,所有参与人选择的策略一起决定每个参与人的支付。这里的“ 同时选择”的是策略,而不是行动。,这里的“同时”是一个信息概念,而不是一个时间概念。可以设想,参与人是处于不同的房间里,要求在彼此没有联络的情况下,选择一个按纽。 通常还假设,所有的参与人都知道博弈的结构,知道他们的对手知道这一结构,知道他们的对手了解他们知道如此直至无穷,也即博弈的结构是共同知识。 更准确地,策略式表述给出: 博弈的参与人集合: i,=1,2,n 每个参与人的策略空间 Si, i=1,2,n 策略组合(s1 ,s2 ,sn ) (4)每个参与人的支付(收益)函数 ui=(s1,si,sn),i=1,2,n,一般用
10、G=S1,S2,Sn;u1,u2,un表示策略式博弈。 例,L,M,R,U,M,D,4,3,5,1,6,2,2,1,8,4,3,6,3,0,9,6,2,8,S1=U,M,D , S2=L,M,R,支付用矩阵表示,称为双矩阵博弈。,参 与 人A,参 与 人B,2.1.1 上策均衡(严格占优战略均衡)如果在某个博弈中,无论其他博弈方选择什么策略,一个博弈方的某个策略给他带来的支付始 终不低于其他策略,则称该策略为这个博弈方 的一个上策(优势策略Dominant strategy)。如果一个博弈的某个策略组合中所有策略都是各个博弈方自己的上策,则称这样的策略组合为该博弈的一个“上策均衡”。 例(囚徒
11、的困境),2.1.2 严格下策反复消去法(逐步剔除严格劣战略)例,L,M,R,U,M,D,8,3,5,1,6,2,2,1,8,4,3,0,9,6,2,8,3,6,可以预测该博弈的合理结局为(U,L),即参与人A,选择策略U,而参与人B选择策略L。,2.2 Nash 均 衡 2.2.1 Nash 均 衡 的 定 义Nash 均衡是指这样的策略组合(或剖面): 为了 极大化自己的收益(或效用), 每一个参与人所 采取的策略一定应该是关于其他参与人所采 取的策略的最佳反应. 因此没有一个参与人会 轻率地偏离这个策略组合而使自己蒙受损失。,定 义 在有n个参与人的博弈G=S1,S2Sn;u1,u2,u
12、n)中,策略组合 s*=(s1 *,s2 *,sn *)是一个Nash均衡,如果对于每一个i, si*是给定其他参与人的选择: S-i*=(s1*,si-1*,si+1*,sn*)的情况下,第i个人的最优策略,即ui(si*,s-i*)ui(si,s-i*) ,对所有的i 或者用另一种表示方式,si*是下述最大化问题的解: si*arg ui(s1*,si-1*,si,si+1*,sn*),i=1,2,n 因此,当且仅当没有一个参与人能从单方面背离某个策略组合的预见中增加自己的得益时,这个策略组合就是Nash均衡。,Si*Si,Nash 均衡的哲学含义:设想n个参与人在博弈前规定每一个参与人选
13、择一个特定的策略。 s*=(si*,s-i*) 代表这个协议,要问在没有外力 强制的情况下,是否有参与人有积极性 不遵守该协议?如没有,则说明该协议是可以 自动实施的。能够自动实施的协议就可以看作 一个Nash 均衡。 例 求下列博弈的Nash 均衡:,C,R,得Nash均衡为:,(D,R).,用划线法可求,Nash均衡有强弱之分.上述定义中给出的是弱Nash均衡,一个Nash均衡是强的,如果给定其他参与人的策略,每一个参与人的选择是唯一的。即,s*是一个强Nash均衡,当且仅当对每一个i, sisi*总有:ui(si*,s-i*)ui(si,s-i*)。如果一个Nash均衡是强的,则没有任何
14、参与人在均衡策 略和其他策略之间是无差异的。(弱Nash均 衡不是) 如在以下博弈中:,C1,C2,C3,R1,R2,R3,2,12,1,10,1,12,0,12,0,10,0,11,0,12,0,12,0,13,(R1,C1)和(R1,C3),都是Nash均衡,但没有,一个强Nash均衡。,本质上说,Nash 均 衡的概念对社会计划者和理 论家施加了一个约束, 使他们不能建议或者 预测一种非均衡行为。博弈论可预测到,在均衡集较小的局势中,文 化规范的重要性也小。 2.2.2 Nash 均衡的一致性预测性质 Nash 均衡是参与人将如何博弈的“一致性”(consistent) 预测: 如果所有
15、参与人预测 到一个特定的Nash 均衡将出现, 那么, 没有人 有兴趣作不同的选择。也只有Nash 均衡具有这样的特征:参与人预测到均衡, 参与人预测到其他参与人预到均衡 等 等。,对比之下,预测一个非Nash 均衡的策略组合 意味着至少有一个参与人会犯错误,尽管这 样的错误确有可能出现。 说Nash 是一致性预测并不意味着Nash 均衡一 定是一个好的预测,但只有Nash 均衡才有: “一 致 性”预测的性质。重要结论:一种制度安排要发生效力必须是一 种Nash均衡(Nash执行的,Nash Implementation), 否则, 这种制度便不能“ 稳定”。,2.2.3Nash均衡与严格下
16、策消去法 命题2.1在博弈G=S1,S2,Sn;u1,u2,un中,如果严格下策反复消去法排除了除( s1*,s2* sn*)之外的所有策略组合,那么(s1*,s2*,sn*)一定是该博弈唯一的Nash均衡。 命题2.2 在博弈G=S1,S2,Sn;u1,u2,un中,如果(s1*,s2*,sn*)是G的一个Nash均衡,那么严格下策消去法一定不会将它消去。检验纳什均衡(囚徒困境,智猪游戏),性别战博弈,思考题:为何几乎所有的卡特尔都会遭到失败?,几乎所有的卡特尔都会遭到失败,原因就在于卡特尔的协定(类似囚犯的攻守同盟)不是一个纳什均衡,没有成员有兴趣遵守。那么是不是不可能有卡特尔合作成功了?
17、理论上,如果是无限期的合作,双方考虑长远利益,他们的合作是会成功的。但只要是有限次的合作,合作就不会成功。比如合作次,那么在第九次博弈参与人就会采取不合作态度。,2.3 无限策略博弈分析和反应函数 2.3.1 Gournot (库诺特)双寡头竞争模型(Nash 均衡最早的 版本,1838 年),设有两个参与人,分别称为企业1和企业2,每个企业的策略是选择产量,得益是利润,它是两个企业产量的函数。 我们用qi0,)表示第i个企业的产量,总供给量为Q= q1+q2 ,Ci(qi)cqi表示成本函数,P=P(q1+q2)=a-(q1+q2)表示逆需求函数(售价)。第i个企业的利润函数为:ui(q1+
18、q2)=qiP(q1+q2)Ci(qi),i=1,2 即u1(q1+q2)=q1P(q1+q2)Cq1u2(q1+q2)=q2P(q1+q2)Cq2,(q1*,q2*)是Nash均衡产量意味着: q1*argmax u1(q1,q2*)=q1P(q1+q2*)C1(q1) q2*argmax u2(q1*,q2)=q2P(q1*+q2)C2(q2) 找出Nash均衡的一个办法是对每个企业的利润 函数求一阶导数并令其为零:,u1/q1=P(q1+q2)+q1P(q1+q2)C1(q1)=0 u2/q2=P(q1+q2)+q2P(q1+q2)C2(q2)=0 上述两个一阶条件分别定义了两个反应函数
19、:q1*=R1(q2)q2*=R2(q1) 反应函数意味着每个企业的最优策略(产量)是另一个企业产量的函数,两个函数的交点就是Nash均衡 q*=(q1*,q2*) (如下图),Cournot模型,q1,q2,R1(q2),R2(q1),NE,O,q1*,q2*,2.4 混 合 策 略 和 混 合 策 略Nash 均 衡 2.4.1 严格竞争博弈和混合策略的引进一、 严格竞争博弈,正面,反面,正面,反面,盖币方,猜币方,-1,1,1,-1,1,-1,-1,1,这个博弈实 际上是一个零和博弈,一方所得即,另一方所失,该博弈没有纯策略的Nash均衡。,例1,例2 社会福利博弈,寻找工作 游荡,救济
20、,不救济,3,2,-1,3,-1,1 0,0,政府,流浪汉,这个博弈也不存在纯策略的Nash均衡,给定政府救济,流浪汉的最佳 策 略是游荡,给定流浪汉游荡,政府的最佳策略是不救济,上述博弈的显著特征是:每一个参与人都想猜透对方的策略,而每个参与人又都不想让对方猜透自己的策略,所以此类博弈中都不存在(纯策略)Nash均衡。,对猜硬币博弈来说,设出正面的概率友p,则出反面的概率为1p,如果p1/2,且猜币方全猜正面,他的期望得益为:p1+(1p)(1)=2p10 即从平均来讲,这时猜币方一定是赢多输少;而如果 p1/2,猜币方也可通过全猜反面而占优。 只有p=1/2, 对方无法占便宜,从而双方各选
21、1/2作为正反面的概率也就成了一种 “均 衡”。二、 混合策略和混合策略Nash均衡定 义 在博弈GS1,S2,Sn;u1,u2,un中参与 人的策略空间为Si=si1,si2,sik,则参与人i以概率分布i=(i1,ik)随机地在其k个可选策略中选择的“策略”称为个混合策略。,其中0ij1,且ij=1 纯策略可以理解为混合策略的特例,如纯策略 si1可以看作是混合策略i=(1,0,0)。 我们用i表示参与人i的混合策略空间:ii 用=(1,2,n)表示n个博弈方的混合策略 组合。 用i表示混合策略组合空间: 在纯策略情形下,ui=ui(s)=ui(u1,ui,un) 对任何一个给定的纯策略组
22、合:s=(s1,s2,sn),ui取确定值。 与混合策略相伴的是得益(支付)的不确定性。这时:,ui()=ui(1,i,n)ui(i,i)表示参与人i的期望效用,它可定义为ui(i,-i)=(j(sj)ui(s),sS,j=1,n,其中j(sj)是混合策略j赋予纯策略sj的概率。,以两人博弈为例:S1=s11,s12,s1p,S2=s21,s22,s2q,如果参与人1相信参与人2的混合策略为:,2=(21,22,2q),那么参与人选择纯策略s1p的期望效用为:,2ju1(s1p,s2j),q,j=1,参与人选择混合策略1=(11,12,1p)的期望效用(得益)为:u1(1,2)=1k 2ju1
23、(s1k,s2j),p,k=1,q,J=1,= 1k2ju1(s1k,s2j),K=1,J=1,p,q,类似地有 u2(1,2)= 1k2ju2(s1k,s2j),k=1 j=1,p q,例如对博弈,L M R,U 4,3 5,1 6,2,M 2,1 8,4 3,6,D 3,0 9,6 2,8,参与人2(B),参与人1(A),(双矩阵博弈),下面重新定义Nash均衡 定义 在博弈G=S1,S2,Sn;u1,u2,un中,混合策略组合*=(1*,i*,n*)是一个 Nash均衡,如果对任一i,有:ui(i*,-i*)ui(i,-i*),对任ii 这个定义也可以写为: 定义 对在博弈G=S1,Sn
24、;u1,un中的混合策略组合*=(1*,i*,n*),如果对所有的参与人i,有ui(i*,-i*)ui(sik,-i*),对每一sikSi成立,则称*为博弈G的Nash均衡。,22双矩阵博弈的Nash均衡的求法 例1 求双矩阵博弈的混合策略Nash均衡,其中A= B= 解:设1*=(x.1x),2*=(y,1y)为Nash均衡点, u1(1*,2*)=xAy=3xy+2x(1-y)+4(1-x)(1-y) =x(5y-2)+4-4y,如果y2/5,则在x=1时达到最大值。 类似地u2(1*,2*)=xBy=y(2x-1)+4-3x,3 2,0 4,2 1,3 4,要使上式取最大值,应取y= 故
25、两者的交点为(2/5,1/2) 故混合策略的Nash均衡为: (2/5,3/5),(1/2,1/2),相应的得益为: U1=2.4,u2=2.5,0, 0x1/2,0,1, x=1/2,1, 1/2x1,x,y,2/5,1/2,例2 社会福利博弈,寻找工作 流浪,救济,不救济,3,2 1,3,1,1 0,0,流浪汉,政府,这个博弈不存在纯策略Nash均衡,设政府的混合策略为:,G=(x,1x),流浪汉的混合策略为L=(y,1y),则政府的,期望效用为uG(G,L)=x(5y1)y, 而流浪汉的期望效用,为:uL(G,L)=y(2x1)+3x,用类似上例的方法(如图):,可得x*=1/2,y*=
26、1/5。,1,1/2,1,0.2,y,x,例3 审计博弈(猜迷博弈的变种):,逃税 不逃税,检查 aC+F,a-F aC, a,不检查 0,0 a, a,纳税人,税收机关,这里a是应纳税款,C是检查成本,F是罚款。,设x表示检查的概率;y表示逃税的概率,给定y,选择检查和,不检查的期望得益分别为:uG(1,y)=yF+aC和uG(0,y)=,a(1y),令uG(1,y)=uG(0,y)得y*=C/(a+F);类似地,给定x,纳,税人选择逃税和不逃税的得益:up(x,1)=(a+F)x和up(x,1),=a,解up(x,1)=up(x,)0得x*=a/(a+F),由此*=(x*,y*)。,2.4
27、.2 多 重 均 衡 博 弈 和 混 合 策 略以上引进的混合策略Nash均衡及其分析方法, 是以没有纯策略Nash均衡的严格竞争博弈为 基础的,下面讨论有多个纯策略Nash 均衡的 博弈。 例1 性别战,芭蕾 足球,芭蕾 2,1 0,0,足球 0,0 1,3,女,男,这个博弈有两个纯策略Nash 均衡(芭蕾,芭蕾)和(足球,足球),还可以求出一个混合策略均衡(3/4,1/4),(1/3,2/3)。,例2 ( 分 级)协 调 博 弈,大 小,大 2,2 1,1,小,1,1 1,1,A厂,B厂,该博弈也有两个纯策略Nash均衡(大,大)和( 小 ,小),和一个混合策略Nash均衡(2/5,3/5
28、),(2/5,3/5)。,2.4.3 混 合 策 略 和 严 格 下 策 消 去 法 在混合策略下,下列结论仍然成立: 如何博弈方都不会采取任何严格下策 严格下策消去法不会消去任何Nash均衡 如果经反复消去后留下的策略组合是唯一的, 那它一定是Nash均衡 例,L R,U 2,0 1,0,M 0,0 0,0,D 1,0 2,0,参与人1,参与人2,参与人1的策略M不是在纯策略下,的严格下策,但如果参与人1采用混,合策略(1/2,0,1/2),不管对方如何,行动,总能保证期望得盖1/2,从而M,在混合策略意义下是严格下策。,2.5 Nash 均 衡 的 存 在 性 2.5.1 Nash 定理(
29、Nash,1950) 每 一个有限博弈至 少存在一个Nash均衡( 混合策略意义下)。 2.5.2 Nash 定理的意义及其扩展,上 策 均 衡,重复剔除上策均衡,纯 策 略Nash 均 衡,混 合 策 略 Nash均 衡,其它存在性定理 定理(Debreu,1952 Glicksberg,1952 Fan,1952)考虑一个策略型博弈,其中各参与人的策略空间Si为欧氏空间中的非空紧凸子集,得益函数ui关于策略组合s为连续的且关于参与人i的纯策略si为拟凹的,那么博弈存在一个纯策略的Nash均衡. 定理(Glicksberg,1952)考虑策略型博弈,其参与人的策略空洵Si是度量空间中的非空紧
30、子集,如果得益函数ui为连续函数,那么博弈至少存在一个混合策略的Nash均衡.,2.6 Nash均衡的选择和分析方法的扩展 2.6.1 多重Nash均衡的博弈分析一个博弈可能有多个(甚至是无穷多个)Nash均 衡, 如考虑两个人分一块蛋糕, 每人独立地提 出自己要求的份额,设x1为参与人1要求的额,x2 为参与人2要求的份额, 如果x1+x21, 每个人 得到自己的份额; 如果x1+x21,两个人所得为 零,这时,任何满足 x1+x2=1 的 点(x1,x2)都是Nash均衡点。 (但x1+x21的点不是),x1,x2,X1+x2=1,O,1,1,在有多个Nash均衡时, 要求所有的参与人预测
31、 同一Nash均衡是非常困难的(均衡集较大意味 着文化影响较大),如在分蛋糕的博中,(0.5,0.5) 的均衡经常出现,这是一个“焦点“均衡。保证一个Nash均衡出现的另一个方法是参与人 在博弈开始前进行不化成本的“廉价磋商”(cheap talk), 尽管我们无法保证磋商会达 成一个协议,即使达成了协议也不一定被遵守。 例如协调博弈(coordination game):,L R,U 9,9 0,0,D 0,0 1,1,参 与 人1,参 与 人2,如果两人在博弈前相遇,参与人1之将选择U; 而参与人2 告之将选择L,则(U,L)这“Pareto 上策均衡”将有很大可能出现。在“性别战” 博弈
32、中, 如 果事先打个电话预约,则可先定 某一均衡。一、Pareto 上 策 均 衡 例 战 争 与 和 平 博 弈,战 争 和 平,战 争 5,5 8,10,和 平 10,8 10,10,国 家1,国 家2,该博弈有两个纯策略Nash,均衡(战,战)与(和,和),而,(和,和)是Pareto上策均衡。,二、风险上策均衡例该博弈有两个纯策略Nash均衡(U,L)和(D,R), (U,L)为Pareto上策均衡,但(D,R)为“风险占优 均衡”。人们通常比较倾向接受预测风险较小的结局。,L R,U 9,9 0,8,D 8,0 7,7,参与人1,参 与 人2,在本例中, 策略D比策略U更“安全”一些
33、, 设参与人1 取U,而参与人取R的概率为y, 则 u1=9(1y)+0y=99y参与人1取D时,u1=8(1y)+7y=8y 当y1/8时,99y8y, 如果参与人1认为参与 人2取R的可能性大于1/8, 他宁愿取D, 因此, 从风险占优的角度看,(D,R)优于 (U,L )。 例 猎 鹿 博 弈,猎 鹿 猎 兔,猎 鹿 3,3 0,1,猎 兔 1,0 1,1,猎手1,猎手2,是介 于“囚徒的困境”与“协调博弈,之间的博弈,它有两个Nash均衡:,( 鹿, 鹿) 和( 兔, 兔), 但( 兔, 兔) 是,风 险 占 优 的。,三、聚点均衡(focal Points Equilibrum)四、
34、相关均衡 Nash均衡通常在参与人独立地选 择自己的策略范围下才有意义。实际上不少博弈中参与人之间选择的策略是相关的,如 与一个“ 信号装置”有关。如古代战将单打独斗不相上下时“鸣金收兵。例(Aumann,1974)相关均衡 他证明如果参与人可以根据某个共同观测到的 信号选择行动,就可能出现“相关均衡”。,如 博 弈,L R,U 5,1 0,0,D 4,4 1,5,参 与 人1,参 与 人2,该博弈有三个Nash均衡(U,L),(D,R)和混合策略: (1*,2*)=(1/2,1/2),(1/2,1/2), 相应的得益 为(5,1),(1,5),(2.5,2.5)。但假若双方约定抛一枚 硬币,
35、正面朝上则1选U,2选L;反面朝上别1 选R,2选D,此时每人的期望效用为3,大于混合 Nash均衡的期望值。这时,按上述规则行动是一,个Nash均衡。,更 重 要 的 是,Aumann 证明:如果每个人收 到不同但相关的信号,每个人都能得到更高的 期望效用。设想由第 三方掷骰子特定方法决 定两人的行动,如12点出现,则1选U,36点出现则1选D,对参与人2则:如果14点 出现,选L。56 点出现则选R,再假定第三 方只告诉参与人选择什么行动,而不透露什么 点数。这时: (U,R)不会出现 保证三个结果(U,L),(D,L), (D,R)各以1/3的概率出现。这时双方的期望得经均为10/3。(
36、但“信号装置”是 有成本的),例 三人博弈的得益矩阵为,L R L R L R,乙 乙 乙,U 2,1,3 0,0,0 U 2,2,2 0,0,0 U 0,1,0 0,0,0,D 1,1,1 1,0,0 D 2,2,0 2,2,2 D 1,1,0 1,0,3,甲,甲,甲,A B C,丙,该博弈有唯一的Nash均衡(D,L,A),相应的得益(1,1,1,),但可 以建立 一个抛均匀硬币的信号装置,甲、乙可以看到结果:甲:看到正面取U,反面取D; 乙:看到正面取L,反面取D;丙: 总是 取B。(丙不能看到硬币正反)这 时 最 终 得 益 为(2,2,2)。,2.6.2 共 谋 和 防 共 谋 博
37、弈一、 多 人 博 弈 中 的 共 谋 问 题例,L R L R,U 0,0,10 5,5,0 U 2,2,0 5,5,0,D 5,5,0 1,1,5 D 5,5,0 1,1,5,A B,丙,甲,甲,乙,乙,易用划线法知(U,L,A)与(D,R,B)是纯策略Nash均衡,前者在 Pareto意义下优于后者,而后者在风险上优于前者,如不考 虑串通结果应为(U,L,A), 但如果考虑甲、乙串通取(D,R),则结果应为(D,R,B)。,二、 防 共 谋 均 衡防共谋均衡是两个以上博弈方的博弈中,博弈 方之间在Pareto 上策均衡中进行合作的思想 的扩展。定义;如果一个博弈的某个策略组合满足下列 条
38、件:没有任何博弈方的串谋会改变博弈的 结果;给定选择偏离的博弈方有再次偏离的 自由时,没有任何两个博弈方的串谋会改变博 弈的结果;依次类推,直到所有博弈方都参 加的串谋也不会改变博弈的结果。 则称该策略组合为一个防共谋均衡。,第 三 章 完 全 信 息 动 态 博 弈 3.1 动 态 博 弈 的 表 示 法 和 特 点 定 义 与 博 弈树博弈的展开式所包含的信息和内容: 参与人的集合,记为i=1,2,n,用N代表虚拟的参匀人“自然”; 行动的次序, 即谁在什么时候行动; 参与人的行的空间,即轮到某参与人行动时,他从该时刻的纯策略空间中选取什么策略; 当参与人作出他们的行动决策时,他所观测到
39、或他所了解到的信息,即他在此时获得的信息 集合; 参与人的得益(支付或效用), 它们是已知行动的函数; 在任何外生事件的概率分布。,例 房地产开发博弈 有两个房地产开发商(分别为参与人1,记为A和参与人2,记为B) 在某地开发房地产, 但该地的房地产需求状况是不确定的, 假定该博弈的行动顺序如下:(1) 开发商1先行动, 选择开发或不开发;(2)在1决策后,“ 自然”选择需求的大小;(3)开发商2在 观测到1的决策和市场的需求后, 再决定开发 或不开发。( 如 下 图),房 地 产 开 发 博 弈,A,N,N,B,B,B,B,开 发 不 开 发,需 求 大 需 求 小 需 求 大 需 求 小,
40、开 发 不开发 开发 不开发 开发 不开发 开发 不开发,(4,4) (8,0) (-3,-3) (1,0) (0,8) (0,0) (0,1) (0,0),单 位:百万元,hA(1),hN(1),hN(2),hB(1),hB(2),hB(3),hB(4),h表示信息集,上述博弈树给出了有限博弈的几乎所有信息。博 弈 树 必 须 满 足 下 列 规 则: 每一个结(node)至多有一个其他结直接位于 它的前面; 在博弈中没有一条路径可以使决策集与自身 相连;每一个结是唯一初始结的后续结, 即博弈树 必须有初始结;每个博弈树“正好”只有一个初始结(多于一个 可以用“ 自 然”连接。,不允许出现的
41、情况:由以上规则,对于博弈树中的每一个终点结,我们,完全可以确定从初始结到终点 结的路 径,同时也展示了博弈的动态过程。信息集:博弈树上的所有决策集分割成不同的信息集, 我们用hH来表示这个信息。如果一个信息集包含 结x,我们就可以将该信息集记为h(x), 如果一个信息 集只包含一个结,这是最简的情况。我们主要关心的 是一个信息集包含不止一个结, 假设x与xh(x),则恰好拥有信息h(x)并正在选择自己行动的参与人其实对自己究竟是处于x还界x是不确定的。,要 求: 如 果xh(x), 则x与x 应 该由同 一个参与人采取行动,且可以选择的策略空 间相同:A(x)=A(x), 由此可以将信息集h
42、上 的行动集记 为A(h)。如果博弈树的所有信息集都是单结的, 则称该 博弈为完美(perfect)息 博弈。(无虚线连接),而完全(complete)信息博弈是指得益函数和纯策略空间均为博弈各方的共同知识。完全信息可以是完美的也可以是不完美的。 3.2 展开型博弈的策略与均衡一、 行 为 策 略 在策略型博弈中, 参与人的策略是进行博弈的计划( 或打算)的详细集合, 而在展开型博弈中 参与人的策略必须确定在该参与人的每一个决 策集上 所 采 取 的 行 动,又 结 与 信 息 集 紧 密 相 连, 对 于 参 与 人i,基于信息hi的行动的,的全体记汉A(hi),如果令Hi表示参与人i的信息
43、集 的集合,则Ai= A(hi)就是参与人i的所有行动的集合。参与人i的一个纯策略是从Hi到Ai的一个映射si:对每一个hiAi,si(hi)Ai,所有这些si的全体记为Si,即的的纯策略空间Si,由此:Si= A(hi),hiHi,hiHi,例参与人2有两个策略集,相应地也有两个信息集A(h2(1)=A(h2(2)=左,右,1,2,2,1,1,1,1,上,下,左,右,左,右,A B A B C D C D,h2(1),h2(2),h1(1),h1(2),h1(3),其中H2=h2(1),h2(2);参与人2的纯策略空间为:S2=(A(h2(1),Ah2(2)=(左,右)(左,右) =(左,左
44、),(左,右),(右,左),(右,右),其中纯策略 (左,左)表明:当1取“上”时,2取“左”;当1取“下”时,2取“左”, 参与人1有三个信息集H1=hi(i),i=1,2,3,1的纯策略空间为:S1=A(h1(1)A(h1(2)A(h1(3) =(上,下)(A,B)(C,D),共8种纯策略。 一般地,参与人I的纯策略空间的纯策略数目为:Si= (A(hi),hiHi,展开型博弈中纯策略是由信息集与行动集定义 的( 与静态博弈不同,静态博弈中采取纯策略与 采取某行动是一个意思)。纯策略组合(剖面profile)是由参与人各自的纯策 略空间中的任一纯策略构成的组合,在任一纯 策略组合s下,总可
45、以从初始结开始,沿着博弈树的某条路径(path), 达到s相应的终点结。 有一个事实非常重要:s中有些信息集在博弈 树的这条路径上,我们称这些信息集是s的路 径(path), 当然也可能存在s中某些信息集不在 此路径上。,定义了纯策略的得益函数后,我们就可以定义 展开型博弈的Nash 均衡;定义 策略组合s*=(s1*,si*,sn*)是展开型 博弈的一个Nash均衡,如果对每一个i,si*最大化ui(si,s-i*):即si*arg max ui(si*,s-i*),对任一i策略型博弈的混合策略实际上是纯策略空间上 的概率分布,因此展开型博弈中参与人i的混 合策略也可以看作是其纯策略空间Si
46、上的任一 概率分布。 “ 参与人的每一个特定的纯策略si相当于一本指导说明书,书中每一页表示到了一个特定的信息集hi,在 该页上告诉i 如何行动。许多的si 相当于许多的说 明书,Si表示这些说明书的全体。混合策略相当于i 以一定的概率分布随机地抽取一本说明书” (Luce & Raiff)。,参与人i的行为策略bi 定义为:bihiHi(A(hi)其中 表示某集合是的概率分布。行 为 策 略 的Nash 集 合 是 这 样 一 个 策 略 组 合, 它 使 得 没 有 一 个 参 与 人 可 以 通 过 不 同 的 使 用策 略 而 增 加 自 己 的 得 益。 注意:行为策略是在A(hi)上随机化,而混合策 略则是在Si( 即A(hi) 的乘积 空 间)上的随机化 。,