1、二人有限零和对策,2 纯策略对策,一、纯策略与混合策略纯策略是指确定的选择某策略;而混合策略则指以某一概率分布选择各策略。,二、纯策略对策的解,1. 引例,前提: 对策双方均理智,结论: 最不利中选最有利,解:可用下述表格表示上述寻找最优纯策略过程:,2. 纯策略分析,(1)局中人甲对每个策略si的评价值为,故局中人甲选择策略模型为:,(2)局中人乙对每个策略dj的评价值为,故局中人乙选择策略模型为:,3. 纯策略对策模型的解,(1) 鞍点与解,称为对策G 之值。,例 上例中,对策值V=1,局中人甲的最优策略为s1 ,局中人乙的最优策略为d2,,(2) 多鞍点与无鞍点对策,例 设有一矩阵对策如
2、下,求它的解。,此对策有多个解。,例: 矩阵对策赢得矩阵如下,试求它的解。,例:齐王赛马为无鞍点对策,4、优超原理,例:,例: 用优超原理求解下列对策,3 混合策略对策,一、混合策略对策的基本概念,无鞍点对策的求解方法是采用混合策略,混合策略就是局中人考虑以某种概率分布来选择他的各个策略。,m维概率向量,1混合策略,称为局中人甲的一个混合策略,即局中人甲选择策略si的概率为xi 。,同理可定义乙的混合策略。,例: “剪刀、石头、布” 游戏,若B的混合策略(0.4,0.3,0.3),则A选“石头”的期望赢得为:,00.4 + 1 0.3 + (-1)0.3=0,则A选“剪子”的期望赢得为:,(-
3、1)0.4 + 0 0.3 + 1 0.3= - 0.1,则A选“石头”的期望赢得为:,10.4 + (-1) 0.3 + 00.3=0.1,若又已知A的混合策略(0.5,0.2,0.3),则A的期望赢得为:,00.5 + (-0.1) 0.2 + 0.10.3= 0.01,(同理,B的期望赢得为-0.01),3混合局势,当局中人甲选择混合策略x;局中人乙选择混合策略y,称(x,y)为一个混合局势。,2混合策略集合,称集合,为甲的混合策略集合;,为乙的混合策略集合;,对于一个混合局势(x,y),用,表示局中人甲在混合局势(x,y)时的收益期望值。,4收益期望函数,二、混合策略对策的解,1混合策
4、略分析,对于混合策略对策,局中人甲的策略决策模型为:,局中人乙的策略决策模型为:,2混合策略矩阵对策的线性规划解法,若所有aij0(否则,可取一充分大M0,使得aij +M0), 则可用下述两规划 来求解混合策略:,(),(),例: “剪刀、石头、布” 游戏,,同理,,第三部分 二人有限非零和对策,一、非零和对策的一般表达,1、局中人集合:i = 1, 2 ,,n,2、每个局中人的策略集:Si (i = 1,n),3、每个局中人的赢得函数:ui (s1, , s i , sn),对策的一般表达:G=S1, Sn ; u1, un ,二、纳什均衡,均衡(Equilibrium)是所有局中人的最优
5、策略的组合,一般记为:,其中,,是第i个局中人在均衡情况下的最优战略,即,(,表示除 i 之外,所有局中人的策略组成的向量。),占优策略均衡,均衡的层次:,重复剔除的占优均衡,(纯策略)纳什均衡,混合策略纳什均衡,条件,强,弱,1. 占优策略均衡,考虑“囚犯困境”问题:,不论同伙选择什么策略,每个囚徒的最优策略是“坦白”。,定义:如果对应所有的,是i的严格最优选择,即,则称,是i的占优策略(Dominant strategy)。,2. 重复剔除的占优均衡,考虑智猪博弈问题:,“等待”是小猪的占优战略,而大猪无占优战略。,劣策略,例:,可按如下思路寻找均衡解: 首先找出某个局中人的劣策略(如果存
6、在),剔除该劣策略,得到新的博弈;再剔除该新博弈中的某个中人的劣策略。重复进行,直至只剩下唯一的策略组合为止,这个剩下的策略称为重复剔除的占优均衡(Iterated dominance equilibrium)。,前提假设:“理性”是所有局中人的共同知识 (Common Knowledge),例:求下面博弈的重复剔除的占优均衡解,(均衡解),例:智猪博弈问题:,(均衡解),3. 纳什均衡,例:(夫妇之争)夫妇俩商量晚上去哪里消遣。丈夫喜欢看足球比赛,而妻子喜欢去看芭蕾舞表演,夫妇都希望二人同往,不愿分开。,问题:既不存在占优策略均衡,也不存在重复剔除的占优均衡。,定义:对于博弈 G=S1, S
7、n ; u1, un ,策略组合,。如果对于每一个i,,是给,定其它局中人选择,的情况下第i个局中人的最优策略,即,则称该策略组合为一个纳什均衡。,例:斗鸡博弈(Chicken Game)两个人举着火棍从独木桥的两端走向中央进行火拼。每个人都有两种策略:继续前进,或退下阵来。若两人都继续前进,则两败俱伤;若一方前进另一方退下来,前进者取得胜利,退下来的丢了面子;若两人都退下来,两人都丢面子。赢得矩阵如下表所示。,Nash均衡:一进一退,纳什均衡的哲学意义,表示n个局中人达成的,一个协议,当这个协议可以自动实施(Self-enforcing)时,即没有任何局中人有积极性破坏这个协议,那么这个协议
8、就构成纳什均衡。否则,若至少存在某些局中人有积极性偏离这个协议,就构不成纳什均衡。,例:智猪博弈问题:,例:囚犯困境问题:,例:(夫妇之争)夫妇俩商量晚上去哪里消遣。丈夫喜欢看足球比赛,而妻子喜欢去看芭蕾舞表演,夫妇都希望二人同往,不愿分开。,纳什均衡解: (足球,足球)或(芭蕾,芭蕾),解纳什均衡的划线法,设有两个局中人:A和B Step 1: 考虑A,给定B的每一个策略,找出A的最优策略,并在其对应的赢得下面画一横线。 Step 2: 用类似的方法,找出B的最优策略。 Step 3: 都画横线的单元格即为纳什均衡。,例:求纳什均衡,纳什均衡,总结:对矩阵A,按列求最大;对矩阵B,按行求最大
9、。,零和博弈的鞍点对应于Nash均衡,,,例 考虑零和博弈,,其赢得矩阵为:,,其中,鞍点,Nash均衡,纳什均衡在经济中的应用举例,公共地的悲剧(Tragedy of the commons) 如果一种资源没有排他性的所有权,就会导致对这种资源的过渡使用。 考虑一个有n个农民的村庄共同拥有一片草地,每个农民都有在草地上放牧的自由。每年春天,每个农民要决定自己杨多少只羊。用gi表示第i个农民饲养的数量,表示总数量;v代表每只羊的平均价值。v是G的,。因为每只羊至少要一定数量的草才,不至于饿死,有一个最大可存活的数量Gmax : 当,函数:,G0; 当GGmax时,v(G)=0。,当草地上的羊很
10、少时,增加一只羊也许不会对其它羊的价值有太大的不利影响,但随着饲养量的不断增加,每只羊的价值会急剧下降,因此:,在该博弈中,每个农民的问题是选择gi以最大化自己的利润。设购买每只羊的价格为c,则利润函数为:,最优化的条件为:,上述n个优化函数的交叉点就是纳什均衡。 可以证明,纳什均衡的总饲养量大于社会最优的饲养量。,具体示例:设n=3,设每只羊的利润函数为,,设c =4,则3个农民的利润函数分别为:,带入利润函数得,结论: (1)Nash均衡条件下,养羊总数243= 72,总利润 5763=1728;(2)总利益最大条件下:养羊总数48,总利润 2304。,4. 混合策略的纳什均衡,问题的提出
11、纯策略意义下,有可能不存在纳什均衡,例:小偷与守卫的博弈(泽尔腾,1996) 一小偷欲偷窃有一守卫看守的仓库,如果小偷去偷窃时守卫在睡觉,则小偷就能得手,否则要被抓住。假设小偷得手可偷得价值为V 的赃物,若被抓住坐牢,负效用 -P。再设守卫睡觉而未被偷则有S 的正效用,睡觉遭偷则要被解雇,负效用-D。若小偷不偷,则无得无失,守卫不睡则出一份力争一份工资,无得无失。,无纳什均衡,的混合策略集:,的混合策略集:,混合策略的纳什均衡,纳什均衡的存在性定理:(纳什,1950),每一个有限博弈至少存在一个纳什均衡(纯策略的或混合策略的),22双矩阵博弈的解法,当A和B均为22阶时,相应的双矩阵博弈可表示
12、为:,I,II,(1),(2),图示,解,条件,条件序号,总结22双矩阵博弈的求解步骤,(1)由 计算,(2)根据Ai和Bi的符号,得到I和II的解,其公共点即博弈的解。,例:(夫妇之争)夫妇俩商量晚上去哪里消遣。丈夫喜欢看足球比赛,而妻子喜欢去看芭蕾舞表演,夫妇都希望二人同往,不愿分开。,纳什均衡解(纯策略):(足球,足球)或(芭蕾,芭蕾),考虑混合策略:,案例分析“非典”疫情扩散和防治 背景: 2003年4月,流行性非典型肺炎从广东省通过输入性病例的传播进入北京。在华北地区“非典”疫情爆发初期,由于没有有效地进行预防和控制,疫情迅速扩散和蔓延,很快就开始在更广泛的区域内传播。这种局面的出现
13、,和SARS具有极强的传染性有关,也与防治工作不力有关。由于政府的监管力度不够,少数医生逃避责任,医院之间也产生一种互相推诿病人的博弈关系。随着疫情的发展,中央政府采取果断措施,加强了领导和监管力度,逐步扭转了这种不利的局面。,疫情爆发初期的情况: 在北京爆发SARS的初期,重症患者出现死亡,给医护人员带来巨大恐慌,个别医院怕自己的医护人员感染和影响单位经济效益,拒收患者。当时情况下,由于对“非典”缺乏科学认识,政府对其严重性也认识不足,政府对医院没有建立严格有效的监管体制。医院面对的局面是一种“囚徒困境”式的博弈问题。,结果:疫情扩散,影响到人民健康和社会稳定,疫情防治: 在疫情发展过程中,随着对SARS的逐步了解,政府及时总结经验教训,迅速出台一系列措施和规定来扭转当时的不利局面,如实行首诊负责制,对拒收发热病人的医院严惩不贷。如果医院不收治非典病人和疑似病人,将受到严厉的惩罚和面临强大的舆论压力。此时两个医院之间的博弈为:,结果:疫情得到控制,