1、谢富纪 2008年4月,1,第五章 有限理性和进化博弈,前面分析基本是假定博弈方具有完全的理性,但对于现实中的决策者来说往往外很难满足这一要求,当社会经济环境和决策问题很复杂时,人们的理性通常是有限的,因此需要讨论博弈方在有限理性条件下的博弈问题。,谢富纪 2008年4月,2,1.有限理性博弈,完全理性:包括(追求最大利益的)理性意识、分析推理能力、识别判断能力、和准确行为能力等多方面的完美要求。有限理性:完全理性中的任何一方面不完美就属于有限理性。完全理性博弈:博弈方都是完全理性的博弈。有限理性博弈:存在有限理性博弈方的博弈。,谢富纪 2008年4月,3,1.有限理性博弈,完全理性是唯一的,
2、但有限理性却有多种情况和层次。有限理性意味着博弈方往往不会一开始就找到最优策略,会在博弈过程中学习博弈,必须通过试错寻找较好的策略;也意味着一般至少有部分博弈方不会采用完全理性博弈的均衡策略,意味着均衡是不断调整和改进而不是一次性选择的结果,而且即使达到了均衡也可能再次偏离。在有限理性博弈中具有真正稳定性和较强预测能力的均衡,必须能通过博弈方模仿、学习的调整过程达到,具有能经受错误偏离的干扰,在受到少量干扰后仍能“恢复”的稳健的均衡。,谢富纪 2008年4月,4,1.有限理性博弈,有限理性博弈的有效分析框架是有限理性博弈方构成的,一定规模的特定群体内成员的某种反复博弈,也可以是大量博弈方组成的
3、群体中成员之间随机配对的反复博弈,相当于现实经济中对象或伙伴不固定的,多个或大量个体之间的较长期经济关系。在这样的分析框架中,博弈分析的核心不是博弈方的最优策略选择(这是大多数经济分析和决策分析的核心),而是有限理性博弈方组成群体成员的策略调整过程、趋势和稳定性。稳定性指群体成员采用特定策略的比例不变,而非某个博弈方的策略不变。,谢富纪 2008年4月,5,1.有限理性博弈,有限理性博弈分析的关键是确定博弈方学习和策略调整的模式或机制,以模拟博弈方的策略调整过程。最优反应动态(Best-response Dynamics)针对有快速学习能力的小群体成员的反复博弈。复制动态(Replicator
4、 Dynamics)针对学习速度很慢的成员组成的大群体随机配对的反复博弈。这两种机制实际上是模拟了生物进化的两种动态机制,因此我们把研究有限理性博弈的理论称为“进化博弈论”或“经济学中的进化博弈论”。,谢富纪 2008年4月,6,博弈方2A B博 A弈方 B 1,2.最优反应动态,相邻博弈方相互博弈的快速学习动态调整模型,讨论具有快速学习能力的有限理性博弈方的动态策略调整和稳定性问题 。协调博弈的有限博弈方快速学习模型:,谢富纪 2008年4月,7,2.最优反应动态,该博弈有两个纯策略纳什均衡(A,A)和(B,B)。如果是在完全理性的博弈方之间进行的博弈,通常的预测结果应该是(B,B);如果考
5、虑到博弈方相互之间对对方理性的信任问题,或者对风险的敏感性等问题,那么(A,A)可能是更好的预测结果。在一次性博弈中,即使博弈方是高度理性的,博弈结果也有不确定性。,谢富纪 2008年4月,8,2.最优反应动态,我们在有限理性的基础上来分析这个问题。假设博弈方虽然缺乏分析交互动态关系和预见能力,但能马上对上一阶段的博弈结果进行总结,并立即作出相应的策略调整。假设共有5个博弈方分别处于如图中圆周上的5个位置(可以理解为5户居民环山而居),每户居民都与自己的左右邻居反复博弈。,谢富纪 2008年4月,9,1 5 24 3,2.最优反应动态,谢富纪 2008年4月,10,初次博弈的部分可能情况B A
6、 A B A A B A BB A B A A A 在与相邻博弈方反复进行该博弈的过程中,是否会出现策略的收敛,是否会趋向于一个唯一的稳定状态。,2.最优反应动态,谢富纪 2008年4月,11,A B A B B A A B B B B B B A AB A A A A AA A A A初次博弈为1A的最优反应动态,2.最优反应动态,谢富纪 2008年4月,12,B A A B A B A A AB A A A A A 初次博弈为相邻2A的最优反应动态,2.最优反应动态,谢富纪 2008年4月,13,A A B A A AB A A A 初次博弈为相邻3A的最优反应动态,2.最优反应动态,谢富
7、纪 2008年4月,14,2.最优反应动态,在32种可能的初次博弈情况中,只有1种是稳定于所有博弈方采用B的状态,其余31种都会收敛采用A的状态。这说明博弈方都采用A策略和都采用B策略是有限理性博弈方进行上述协调博弈的稳定状态,但前一种稳定状态显然更重要一些,因为博弈方的策略调整收敛到这种情况的机会要大大高于后一种情况 所有博弈方都采用A的稳定状态具有稳健性,而采用B并不真正具有稳健性。 具有在博弈方的动态策略调整中会达到,且又对少数偏离的扰动有稳健性的稳定状态,在进化博弈论中称为“进化稳定策略”。因此A是一个进化稳定策略,B不是。,谢富纪 2008年4月,15,2.最优反应动态,古诺调整 两
8、个寡头的发应函数分别是: q1=3-q2/2 q2=3-q1/2 如果开始一方生产2.5,另一方生产3,则调整过程如下:,谢富纪 2008年4月,16,3.复制动态和进化稳定性:两人对称博弈,学习较慢的博弈方组成的大群体成员的随机配对反复博弈。有限理性博弈方组成群体成员的策略调整过程、趋势和稳定性。 所有博弈方都相似,学习很慢,所进行的博弈是博弈位置无差异的两人对称博弈。学习较慢意味着向优势策略转变是一个渐进的过程。,谢富纪 2008年4月,17,签协议博弈的复制动态和进化稳定策略:博弈方2同意 不同意博弈 同 意方 1 不同意,3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,
9、18,在理性层次较低的有限理性博弈方组成的大群体成员随机配对的分析框架内进行分析。 假设整个群体中“同意”类型的博弈方比例为x,那么“不同意”类型博弈方的比例为1-x 。博弈方策略类型比例动态变化是有限理性博弈分析的核心。以采用“同意”策略类型博弈方比例为例,其动态变化速度可以用下列动态微分方程表示:,uy,un表示“同意”和“不同意”两种类型博弈方各自的期望得益。u 表示群体成员的平均得益。,3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,19,dx/dt0 0.5 1 x签协议博弈复制动态相位图,3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,20,x*=0
10、,x*=1是上述复制动态的两个稳定状态,其中x*=1是对应大多数初始状态的稳定状态 。有限理性的博弈方通过学习最终找到了本博弈比较有效率的纳什均衡。x*=1是进化稳定策略,而x*=0则不是。,3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,21,博弈方2策略1 策略2博 策略1弈方 策略2 1,两人对称博弈的复制动态和进化稳定策略,3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,22,假设在该群体中,有比例为x的博弈方采用策略1,比例为1-x的博弈方采用策略2。则复制动态方程为:,该复制动态方程最多有三个稳定状态,分别为:,3.复制动态和进化稳定性:两人对称博弈
11、,谢富纪 2008年4月,23,dx/dt0 x* 1 x2 2对称博弈复制动态方程相位图,稳定性定理:F(x)=0与横轴相交且交点处切线斜率为负的点为相应博弈复制动态的进化稳定策略。,3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,24,博弈方2策略1 策略2博弈 策略1方 1 策略2,协调博弈的复制动态和进化稳定策略,3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,25,复制动态方程为:,三个稳定状态为:,前两个点是该博弈的进化稳定策略。,3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,26,dx/dt0 11/61 1 x协调博弈复制动态方
12、程相位图,3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,27,通过复制动态最终实现前一种更高效率进化稳定策略均衡的机会是11/61,实现后一种相对较差进化稳定策略均衡的机会是50/61。这说明,有限理性博弈方通过复制动态的学习和策略调整,也并不一定能实现最理想的结果。同时也说明,复制动态进化博弈的结果常常是取决于带有很大偶然性的初始状态。事实上这也正是为什么在相似的规律作用下,事物的形态特点会如此丰富多彩的原因。比较协调博弈以复制动态为核心的进化博弈分析和以最优反应动态为核心的进化博弈分析,结果表明,理性程度高的博弈方并不一定能得到比理性差的博弈方更理想的结果。,3.复制动态
13、和进化稳定性:两人对称博弈,谢富纪 2008年4月,28,鹰鸽博弈的复制动态和进化稳定策略:揭示人类社会或动物世界发生战争或冲突的可能性及频率,国际关系中霸道和软弱,侵略与反抗等共存的原因。 博弈方2鹰 鸽博 弈 鹰方 1 鸽,3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,29,采用“鹰”策略博弈方比例的复制动态方程为:,取v=2,c=12,则复制动态方程为,三个稳定状态为:,只有第三个点是真正稳定的进化稳定策略。,3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,30,dx/dt0 1/6 1 x鹰鸽博弈复制动态相位图,3.复制动态和进化稳定性:两人对称博弈,
14、谢富纪 2008年4月,31,该博弈的现实意义:在较大规模群体长期进化中,采取进攻型策略的博弈方的数量最终会稳定在1/6的水平上,大多数博弈方(5/6)会采取比较和平的策略。这意味着发生严重战争的机会虽然存在,但可能性比较小(1/36),相互间和平共处的可能性最大(约占25/36),比较忍让的一方受比较霸道的一方欺负的机会居中(约占10/36)。,3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,32,蛙鸣博弈的复制动态和进化稳定策略雄蛙2鸣叫 不鸣 雄 鸣叫蛙 1 不鸣,3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,33,m1鸣叫混合策略 m1-P+zmz不鸣
15、叫0 1 z蛙鸣博弈不同均衡的条件,3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,34,复制动态方程为:,三个稳定状态为:,3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,35,dx/dt0 (mz)/(1P) 1 x蛙鸣博弈复制动态相位图(0(m-z)/(1-P)1),3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,36,dx/dt0 1 x蛙鸣博弈复制动态相位图(m-z)/(1-P)0),3.复制动态和进化稳定性:两人对称博弈,谢富纪 2008年4月,37,dx/dt0 1 x蛙鸣博弈复制动态相位图(m-z)/(1-P)1),3.复制动态和
16、进化稳定性:两人对称博弈,谢富纪 2008年4月,38,市场阻入博弈的复制动态和进化稳定策略进入 不进打击 不打 (1,5)(0,0) (2,2),1,2,4.复制动态和进化稳定性:两人非对称博弈,谢富纪 2008年4月,39,博弈方2打击 不打博 进入弈方 1 不进,4.复制动态和进化稳定性:两人非对称博弈,谢富纪 2008年4月,40,4.复制动态和进化稳定性:两人非对称博弈,有两个纳什均衡(进,不打击),(不进,打击),前者是子博弈完美纳什均衡。如果是在两个完全理性的博弈方之间进行的博弈,博弈均衡应该是前者。现假设在有限理性下进行这个博弈,博弈方没有求子博弈完美纳什均衡策略的能力和坚持这
17、种策略的信心。这样,在一次性博弈中博弈方究竟会如何选择,以及博弈的结果如何都不确定。现在有两个不同的博弈方群体,一是在博弈方1位置博弈的潜在的进入者群体,另一个在博弈方2位置博弈的阻入者群体,每次博弈实际上是前一个群体的一个成员与后一个群体的一个成员进行的。,谢富纪 2008年4月,41,4.复制动态和进化稳定性:两人非对称博弈,分析框架:反复在两个群体中各随机抽取一个成员配对进行上述市场阻入博弈,博弈方的学习和策略模仿局限在他们所在群体内部,策略调整的机制仍然是与两人对称博弈中相似的复制动态。设博弈方1位置博弈群体中,采用“进”策略的博弈方比例为x,博弈方2位置博弈的群体中采用“打击”策略的
18、博弈方的比例为y。,谢富纪 2008年4月,42,4.复制动态和进化稳定性:两人非对称博弈,在博弈方1位置博弈的博弈方类型比例的复制动态方程:,在博弈方2位置博弈的博弈方类型比例的复制动态方程:,谢富纪 2008年4月,43,dx/dt0 1 x(b) y1/2,4.复制动态和进化稳定性:两人非对称博弈,谢富纪 2008年4月,44,dx/dt0 1 x(c) y1/2,4.复制动态和进化稳定性:两人非对称博弈,谢富纪 2008年4月,45,dy/dt0 1 y(b) x 0,4.复制动态和进化稳定性:两人非对称博弈,谢富纪 2008年4月,46,非对称博弈两群体复制动态的关系和稳定性y11/
19、20 1 x,4.复制动态和进化稳定性:两人非对称博弈,谢富纪 2008年4月,47,4.复制动态和进化稳定性:两人非对称博弈,结果表明,潜在进入者最终都会进入市场竞争,而先占领市场的阻入一方则会放弃采取不理智的报复措施。这与完全理性条件下博弈的子博弈完美纳什均衡一致,说明有限理性的博弈方通过学习是能够掌握子博弈完美纳什均衡策略。,谢富纪 2008年4月,48,非对称鹰鸽博弈博弈方2 鹰 鸽博弈 鹰方 1 鸽,4.复制动态和进化稳定性:两人非对称博弈,谢富纪 2008年4月,49,博弈方2鹰 鸽博弈 鹰方 1 鸽,4.复制动态和进化稳定性:两人非对称博弈,谢富纪 2008年4月,50,4.复制
20、动态和进化稳定性:两人非对称博弈,设博弈方1位置博弈群体中,采用“鹰”策略的博弈方比例为x,博弈方2位置博弈的群体中采用“鹰”策略的博弈方的比例为y。在博弈方1位置博弈的博弈方类型比例的复制动态方程:,谢富纪 2008年4月,51,在博弈方2位置博弈的博弈方类型比例的复制动态方程:,4.复制动态和进化稳定性:两人非对称博弈,谢富纪 2008年4月,52,dx/dt0 1 x(b) y5/6,4.复制动态和进化稳定性:两人非对称博弈,谢富纪 2008年4月,53,dx/dt0 1 x(c) y5/6,4.复制动态和进化稳定性:两人非对称博弈,谢富纪 2008年4月,54,dy/dt0 1 y(b) x1/6,4.复制动态和进化稳定性:两人非对称博弈,谢富纪 2008年4月,55,dy/dt0 1 y(c) x1/6,4.复制动态和进化稳定性:两人非对称博弈,谢富纪 2008年4月,56,Y1 A B5/6 C D 0 1/6 1 x,4.复制动态和进化稳定性:两人非对称博弈,非对称鹰鸽博弈博弈方2群体复制动态方程分析,