1、博弈是人们的行为之间的交互作用博弈论的含义博弈论是研究在策略性环境中如何进行策略性决策和采取策略性行动的科学。策略性环境是指,每一个人进行的决策和采取的行动都会对其他人产生影响;策略性决策和策略性行动是指,每个人要根据其他人的可能反应来决定自己的决策和行动。在所有社会,人们经常互动。有时,互动是合作,其他的时候,互动是竞争。在这两种情况下,都可以用一个术语,即相互依赖性来表示一个人的行为对另外一个人的福利造成的影响。相互依赖的情形可称为策略环境。因为人们为了确定所采取的最优行动,必须考虑他周围的其他人会怎样选择行动。策略对于社会的运行来说,是非常基本的。我们要学会了解在策略环境下,人们实际上是
2、如何采取行动的,以及他们应该怎样采取行动。这种系统的研究形成了策略互动的理论。博弈论三要素:博弈的三个基本要素三个基本要素,即参与人、参与人的策略和参与人的支付。所谓参与人(或称局中人),就是在博弈中进行决策的个体;所谓参与人的策略,指的是一项规则,根据该规则,参与人在博弈的每一时点上选择如何行动;所谓参与人的支付是指,在所有参与人都选择了各自的策略且博弈已经完成之后,参与人获得的效用(或期望效用)。3.博弈的简单分类根据参与人的数量,可以分为二人博弈和多人博弈;根据参与人的支付情况,可分为零和博弈和非零和博弈;根据参与人拥有的策略的数量多少,可分为有限博弈和无限博弈;根据参与人在实施策略上是
3、否有时间的先后,可分为同时博弈和序贯博弈。一些概念:局中人或参与者(Players) 规则(rules):规定博弈各方的行动顺序、方式、以及最终的结果等。策略(Strategy):一整套的行动方案,规定了各种情况下的行动。比如:敌进我退,敌退我追,敌驻我扰,敌疲我打。相机策略(contingent strategy):仅在不确定事件发生时才会采取的策略。如:人不犯我,我不犯人;人若犯我,我必犯人。行动:局中人在特定条件下的行为支付( Pay-off ):博弈结束时,各方得到的收益。策略均衡:参与者之间稳定的、可预测的互动行为模式,就是策略均衡。上策均衡与纳什均衡上策均衡:我所做的是不管你做什么
4、我所能做的最好的 你所做的是不管我做什么你所能做的最好的所谓上策,是指这样一种策略,即不管对手采取什么策略,这种策略都是最优的。 而当对局者选择的都是上策的时候,这种均衡叫做上策均衡 。NASH 均衡:我所做的是给定你所做的我所能做的最好的 你所做的是给定我所做的你所能做的最好的纳什均衡是指在对手策略既定的情况下,各自对局者所选择的策略都是最好的。在一个纳什均衡里,任何一个参与者都不会改变自己的策略,如果其他参与者不改变策略。的 判 别 式A是)(1)(其 中 , )-1()-()-( 212121 221211121 qAqApAAqpppEA 上策均衡与纳什均衡的区别: 上策均衡是指不管你
5、选择什么策略,我所选择的是最好的;不管我选择什么策略,你所选择的是最好的。 纳什均衡是指给定你的策略,我所选择的是最好的;给定我的策略,你所选择的是最好的。 上策均衡是纳什均衡的一种特殊情况,但纳什均衡却不一定是上策均衡。 求纯策略博弈的纳什均衡街解的方法混合策略均衡的情侣博弈,根据支付矩阵计算出博弈双方的期望得益分析该博弈的纳什均衡的概率分布寻找混合策略纳什均衡的思路令各博弈方随机选择纯策略的概率分布,满足使其他博弈方采用不同策略的期望得益相同,从而计算出各个博弈方随机选择各纯策略的概率。在猜硬币博弈中,设盖硬币方出正面的概率为 p,出反面的概率为 1-p。则猜硬币方猜正面的期望得益为p1+
6、(1-p)(-1)=2p-1,猜反面的期望得益是 p(-1)+(1-p) 1=1-2p,令二者相等,得 p=1/2。盖硬币方的混合策略是以(1/2,1/2)的概率随机选择正面和反面。类似的,可以计算出猜硬币方的混合策略。.期望支付运用两个参与人的混合策略组合,可以分别表示出两个参与人得到的支付。博弈树1.博弈树的起点“起点”又叫做“初始决策点”,通常只有一个。起点是博弈树的“根”,是序贯博弈开始的地方,是博弈的最先行动者进行决策的地方。2.博弈树的线段从初始决策点出发,向右伸展两条线段,分别表示竞争者可以采取的两个行动或策略。3.博弈树的中间点中间点又叫做“中间决策点”,通常至少应有两个。通常
7、在这些中间决策点的旁边标上另一参与人,表示中间点是另一参与人做决策的地方。博弈树的终点第一,终点不是决策点终点是博弈结束的地方。与起点和中间点不同,终点不是决策点:既不是初始决策点,也不是中间决策点。因此,终点不属于任何的参与人,终点的旁边没有标注任何的参与人。的 判 别 式B是)(1)(其 中 , )-()-()-( 212121 221211 11 qBqBp BqppEB 第二,终点的两层含义一是代表博弈的一个策略组合从起点开始导向某个终点的所有线段按先后秩序排列的一个组合。二是代表与某一个策略组合相对应的一个支付组合在每一个终点的旁边,有一对用圆括号围住的数字,其中的第一个数字是先行动
8、者的支付,第二个数字是后行动者的支付。逆向归纳法求解子博弈的精炼纳什均衡解逆向归纳法的两个步骤第一步,先从博弈的最后阶段的每一个决策点开始,确定相应参与人此时所选择的策略,并把参与人所放弃的其他策略删除,从而得到原博弈的一个简化博弈;第二步,再对简化博弈重复步骤一的程序,直到最后,得到原博弈的一个最简博弈。这个最简博弈,就是原博弈的解。举例 情侣博弈 简化之后女方的选择完全由男方的选择所决定:男(足)-女(足);男(芭)-女(芭)男方的最优策略是选足球,女也选足球,即最优策略组合为(足球,足球)。逆向归纳策略总是纳什均衡,纳什均衡不一定是逆向归纳均衡。先动优势从情侣博弈的例子中可以看到所谓的“
9、先动优势”先行动者的得益大于后行动者的得益。如男方先动,逆向归纳的结果就是对男方更有利的纳什均衡(足球,足球);如改为女方先动,则逆向归纳的结果就是对女方更有利的纳什均衡(芭蕾,芭蕾)。该混合策略纳什均衡给丽娟带来的期望得益是:(1-p) 1+p0+(1-p) (1-)(-1)+p(1- ) 2=0.5给大海带来的期望得益是:(1-p) 2+p0+(1-p) (1-)(-1)+p(1- ) 1=0.5丽娟 p 为丽娟选择芭蕾的概率足 芭蕾逆向递归法逻辑基础:动态博弈中先行动的博弈方,在前面阶段选择行为时必然会考虑后行为博弈方在后面阶段的选择,只有在博弈最后一个阶段选择的博弈方才能直接作出明确选
10、择。而当后面阶段博弈方的选择确定后,前一阶段博弈方的行为也就容易确定了。一般方法:从动态博弈的最后一个阶段开始分析,每一次确定出所分析阶段博弈方的选择和路径,然后再确定前一个阶段博弈方的选择和路径,逐步向前逆推以求解出动态博弈均衡。子博弈定义:由一个单结信息集开始的与所有该决策结的后续结(包括终点结)组成的能自成一个博弈的原博弈的一部分。2,1 0,0-1,-1 1,2子博弈精炼纳什均衡定义:如果在一个完全信息动态博弈中,各博弈方的策略构成的一个策略组合满足,在整个博弈及它的所有子博弈中都构成纳什均衡,那么这个策略组合称为该动态博弈的一个子博弈精炼纳什均衡。幻灯片 26以法律保障不足的开金矿博
11、弈为例 策略组合“乙在第一阶段选择借,第三阶段选择打;甲在第二阶段选择分”,即(借,打),(分),虽然是整个博弈的一个纳什均衡,但这个策略组合中乙的策略要求乙在第三阶段的子博弈中选择的“打”,不是该子博弈的一个纳什均衡,因此这个策略组合不是子博弈精炼纳什均衡。 而策略组合(不借,不打),(不分)则是该博弈的子博弈精炼纳什均衡。因为该策略组合的双方策略不仅在整个博弈中构成纳什均衡,而且在两级子博弈中也都构成纳什均衡(从而不存在任何不可信的威胁或承诺)。 注意:当博弈方按上述子博弈精炼纳什均衡策略组合行动时,实际上不会进行到博弈的第二、三阶段,两博弈方在第二、三阶段的行为实际上不会发生。但作为完整
12、策略的表达,在描述子博弈精炼纳什均衡的策略选择时,必须将其给出。幻灯片 28三、子博弈精炼纳什均衡求解方法 逆向归纳法是求解子博弈精炼纳什均衡的最简便方法。 完全信息动态博弈的每一个决策结都是一个单独的信息集,每一个决策结都开始一个子博弈。这样,可以从最后一个子博弈开始(即从最后一个决策结开始)逆推上去,求解子博弈精炼纳什均衡。幻灯片 30四、承诺行动与子博弈精炼纳什均衡 前面已知,有些纳什均衡之所以不是精炼均衡,是因为它们包含了不可信威胁。这也意味着,如果参与人能在博弈之前采取某种措施改变自己的行动空间或支付函数,原来不可信的威胁就可能变得可信,博弈的均衡就会相应改变。将这些为改变博弈结果而采取的措施称为“承诺行动”。 在许多情况下,承诺行动对当事人是很有价值的。特别的,有时一个参与人通过减少自己的选择机会使自己受益,原因在于保证自己不选择某些行动可以改变对手的最优选择。