1、博弈论的应用,最优反应曲线,最佳反应曲线(best response curve). 给定其他博弈人的策略选择,能够选择的最佳策略集。如需求曲线,或供给曲线。目的:1.不同的博弈适用于不同的事件。2.讨论不同的博弈如何实现帕累多偏好纳什均衡两种类型的最优反应曲线:1.纯策略2.混合策略,一、纯策略,含义:指参与者在他的策略空间中选取惟一确定的策略。 1、最优反应曲线 一个简单的博弈,同学B:左 or 右同学A:上 or 下,纳什均衡,喝酒和开车,一般的双人博弈参予人A的选择:r1 ,r2,rr 参予人B的选择:c1 ,c2,cc 对于参与人A的每一个选择r,bc(r)表示参与人B的最优反应。
2、相应地,对于参与人B的每一个选择c,br(c)表示参与人A的最优反应。纳什均衡为: c*= bc(r*), r*= br(c*)反应函数 1.另一个人的选择正好与自己期待的选择“相互一致”。 2.对于每一个人来说,选择哪个都可以。不会出现最坏情况。,二.混合战略,指参与者采取的不是惟一的策略,而是其策略空间上的概率分布。具体应用:无法准确判断对方选择的时候:划拳,石头剪子(青蛙和螃蟹)己知:同学A和同学B的可能选择和收益矩阵 设:A选择“上”的概率为r,选择“下”的概率为1-r, B选择“左”的概率为c,选择“右”的概率为1-c。注:当r和c等于0时,相应的策略为纯策略。,分析,A的期望收益为
3、:2rc+(1-r)(1-c)=2rc+1-r-c+rc。r(上的概率)增加了r时,A的期望收益变化: 2cr-r+cr=(3c-1)r如果3c1,收益将增加;如果3c2/3时,B收益将增加c;当r2/3时,B收益将减少c;当r=2/3时,他对于任意的0c1无差异。,最优反应曲线,己知:r: A选择上的概率q :B选择左的概率,各种类型的博弈,合作博弈竞争博弈依存博弈承诺博弈,合作博弈,前提:合作的报酬比不合作的时候高表现为:当参与人能够协调他们之间的策略时,他们的收益就会最大。问题:需要什么样的机制,如何协调两者才能实现博弈双方的合作?具体问题: 1.如何加强合作-威胁单于射人的例子 2.如
4、何分配合作得到的收益-使其和你合作(强盗,兄弟两分一百美元) 2. 如何妥协-让步,共赢,两个企业,例一:看电影的性别之争,男孩要看动作片,女孩要看艺术片,他们的报酬矩阵如下,两个博弈人如何达成一致呢?,从女生的角度去分析,1.设A选动作片的概率为r,女生B选择动作片的概率为q。2.首先分析男生A每种选择的概率 50%,50% 2.考虑一些其他的因素 a.哪一部电影更新? b.上次看的是什么电影? b.恋爱阶段 r=60%的可能选择动作片3.画出女生B的最优反应曲线对于女生来说:如果男生A选择动作片的概率小于67%,应该选择艺术片。概率大于67%,就应该选择动作片。4.结合B的概率分布进行选择
5、,r,q,0,1/3,2/3,1,1,B的最优反应曲线,(L,L),如何加强合作,a.承诺机制三个原则:1。改变博弈的结果:把威胁变成警告,把许诺变成保证。(1)建立和利用一种信誉(2)写下合同2。改变博弈,使你背弃承诺的能力大受限制。(1)破,例二:囚徒困境,回顾一下囚徒困境的收益矩阵,分析:1.存在占优策略,两人都应该坦白2.协调或合作能使两者利益最大化解决方案:1.无限重复,长期博弈.拒绝合作带来下次的惩罚.男生等女朋友2.缔结合约-约束和惩罚3.改变收益矩阵,由占优决策变为纳什均衡,保证博弈,特征:1.存在纳什均衡2.保证可以使两者的收益都达到最优,解决方案:1.一方先行动,做出行为保证,得到序贯效应。2.担保政策。战国时期,皇太子做人质。3.威胁机制。,斗鸡博弈,两个年轻人分别从一条街的两头,驾车笔直地是向对方。第一个转向的人会颜面尽失,但如果没有人转向,将会撞在一起。 其收益矩阵如下图:1 .存在两个纳什均衡:(不转向,转向)和(转向,不转向)。2.和保证博弈有所区别,双方做不相同的事情比做相同的事情好。3.知道对方的选择会使自己的结果最优,年轻人A,年轻人B,解决方案:1.让对方知道自己的选择。2.知道对方的选择3.让对方错误估计力量对比,应用,1.约人见面2.合资企业供应商的选择,