1、博弈论 杜 少 甫 学术型硕士研究生课程2 中国科学技术大学管理学院 2013 第I 篇 非合作博弈理 论 非合作博弈(Non-cooperative Game) 每个局中人都是独立地从个人理性出发,选择那些使自己利益最大化的行动或对策的博 弈类型。 非合作博弈强调个人理性和个人最优决策,其结果可能是有效率的,也可能是无效率的。 各局中人间不存在任何有约束力的协议 不“串通”、“共谋” 合作博弈(Cooperative Game) 部分或全部局中人能够联合,达成具有约束力且可强制执行的协议的博弈类型。 合作博弈强调的是集体理性,强调效率、公正、公平。 通过合作能带来“合作剩余” 合作博弈最重
2、要的两个概念是联盟和分配。 每个参与者从联盟中分配的收益和正好是各种联盟形式的最大总收益 每个参与者从联盟中分配到的收益不小于单独经营所得收益3 中国科学技术大学管理学院 2013 第1 章 完 全 信息静态博 弈 Static Game with Complete Information 按出手顺序 静态博弈(static game): 所有局中人同时或可视作同时选择策略的博弈 局中人相互不了解对方的选择 策略行动 动态博弈(dynamic game): 各局中人先后、依次进行选择、行动 后出手者通常能观察到先出手者的选择 策略行动4 中国科学技术大学管理学院 2013 第1 章 完 全 信
3、息静态博 弈 Static Game with Complete Information 按信息 信息是局中人关于博弈的知识,是实施决策的重要依据 完全信息(Complete Information):没有私人信息 局中人的策略集和支付函数均为共同知识 策略集蕴含了行动集和出手时间 完全信息静态博弈是最简单的一种博弈类型5 中国科学技术大学管理学院 2013 博 弈的策略 式表示 博弈的表示法主要有两种 策略式表示(Strategic Form Representation) 标准/正则式表示(Normal Form Representation) 用局中人集、各局中人的策略集/空间和支付函数
4、来描述博弈 注:是策略集而非行动集。当然,静态博弈中策略行动 策略式表示也可用于描述动态博弈 若用来描述动态博弈,那么策略集所承载信息量过大 策略式表示更适用于静态博弈 扩展式表示(Extensive Form Representation) 策略式表示在描述动态博弈时有局限性,对局中人策略空间进行“扩展” 即引入历史集、局中人函数、概率分布族、信息集取代原策略式表示中的策略集 扩展式表示更适用于动态博弈。6 中国科学技术大学管理学院 2013 博弈的策略式 表示( 续) 策略式表示的形式化描述:三元组 N: 所有局中人集合。N=1,2,n, |N|=n S: 策略集向量。S=(S 1 ,S
5、2 ,S n ), 其中S i 为局中人i的策略集 S i : 离散/连续,有限/无限 离散情形: = , , , ,对于不同的i,|S i |=m i 可能不同 连续情形:常用“策略空间”,往往用表达式描述,如S i =x|x0 U: 支付函数向量。 U=(u 1 ,u 2 ,u n ), 其中u i 为局中人i的支付函数 为简洁起见,通常也简写为S 1 ,S 2 ,S n ; u 1 ,u 2 ,u n 1 11 ( ,) , , ii n nn u u s s where s S s S = 7 中国科学技术大学管理学院 2013 博弈的策略式 表示( 续) 例: 成绩博弈中,局中人为“
6、我方-me”和“对方-pair”,策略集均为甲-J,乙-Y, 支付为成绩,则可策略式表示为 在Cournot双寡头博弈中,局中人有2个,策略集为产量,支付为利润,则策 略式表示为 1 2 112 212 0 , 0 ; (, ) , (, ) G q q qq qq = , , , ; (0,0),(3, 1),( 1,3),(1,1) G JY JY = 8 中国科学技术大学管理学院 2013 博弈的策略式 表示( 续) 有限博弈(Finite Game) 无限博弈(infinite game) 局中人数量有限,即|N|为某一正整数 每个参与人的策略数有限,即|S i |为某一正整数 前述策
7、略式表示的形式化描述相对比较抽象 对于两人有限博弈,则可用支付矩阵来直观描述 例如Prisoners Dilemma N=A,B S=(沉默,招供,沉默,招供) U=(-1,-1),(-8,0),(0,-8),(-5,-5) 1,1 8,0 0,8 5,5 囚徒B 沉默 招供 囚 徒 A 沉默 招供9 中国科学技术大学管理学院 2013 策 略种类 策略式博弈中,策略的种类 纯策略(pure strategy):简称“策略” 局中人在其策略空间中选取惟一确定的策略 如:局中人i的策略空间是 = , , ,那么 s i S i 都是纯策略。 纯策略组合(pure strategy profile
8、): 混合策略(mixed strategy) 局中人采取的不是明确唯一的策略 而是其策略空间上的一种概率分布 如:定义 = ( ) ,即给 出局中 人i 在策 略集上 选择的 概率分 布 ( , , , ), , , , , ; = = = 12 1 p 01 1 1 i i m i i i im ij i ij j pp p p j m p ( , , , ), 12 12 ni j j nj ij i s ss s s S 纯策略是混合策略的特例10 中国科学技术大学管理学院 2013 矩阵博弈与Maximin 解 von Neumann u 1 ,u 2 ,u n 中,若对任何其它局
9、中人的策略组合s -i ,局中人i的策略s i *是严格最优选择,即 称s i *为局中人i的(严格)占优策略 定义2:在策略式博弈G=S 1 ,S 2 ,S n ; u 1 ,u 2 ,u n 中,若任意局中人i均 有占优策略s i *,那么如下策略组合称为占优策略均衡(dominant- strategy equilibrium) + + 1 11 1 11 ( ,s ) ( ,s ), s s ( , , ,) s , 即 ii i ii i i i i i ii n i ii n us us s s where s s s s S SS S 1 s (, , ) n ss24 中国科学
10、技术大学管理学院 2013 占优策略均衡( 续) 例:prisoners dilemma 两人的支付矩阵分别为 矩阵A 行行比较;矩阵B 列列比较 显然“招供”是二者的占优策略 (“招供”, “招供”)就是占优策略均衡 占优策略均衡未必Pareto Optimal 个人理性和集体理性间的选择 1,1 8,0 0,8 5,5 囚徒B 沉默 招供 囚 徒 A 沉默 招供 1 8 100 5 85 AB = = 占优策略均衡25 中国科学技术大学管理学院 2013 占优策略均衡( 续) 占优策略均衡不要求“理性是共同知识” 只要求:每个局中人分别理性(个人理性) 不要求:每个局中人知道其它局中人也理
11、性 无论其它局中人理性与否,占优策略总是理性局中人的最优选择26 中国科学技术大学管理学院 2013 重复剔除的占优均衡 (iterated dominance equilibrium) 当每个局中人都有占优策略时 占优策略均衡 在大多博弈中,占优策略均衡是不存在的。 在有些博弈中,仍然可用“占优”思路找出均衡 5, 1 4, 4 9, -1 0, 0 小猪 按 等待 大 猪 按 等待 人们会选择他认为最好的策略,不会选择他认为不好的策略 一个理性局中人绝不会选择劣势策略 对小猪来说是 劣势策略27 中国科学技术大学管理学院 2013 重复剔除的占优均衡 (iterated dominance
12、 equilibrium) 定义3:在策略式博弈 = , , , ; , , , 中, 局中人i的两个策略 , , 称策略 相对于 是严格劣势 策略(strictly dominated strategy),当 若上述条件的变成,但至少有一个s -i 满足的条件,那么就称策 略 相对于 是弱劣势策略(weakly dominated strategy) 例如: 囚徒困境中的“沉默”相对于“招供”是严格劣势策略 + 1 11 ( ,s ) ( ,s ), s ii i ii i i i i n us us S S S S28 中国科学技术大学管理学院 2013 重复剔除的占 优均 衡( 续) 例
13、:智猪博弈 对于小猪而言,“按”严格劣于“等待” 对于大猪而言,没有优劣之分 例:市场进入壁垒博弈 对于原垄断者而言,“阻挠”弱劣于“默许” 对于新入者而言,无优劣之分 100, 80 400, 0 0, -20 400, 0 新入者 进入 退却 原 垄 断 者 默许 阻挠 5, 1 4, 4 9, -1 0, 0 小猪 按 等待 大 猪 按 等待29 中国科学技术大学管理学院 2013 重复剔除的占 优均 衡( 续) 严格劣势策略的重复剔除(iterated elimination of strictly dominated strategy) Step 1、假如博弈G中的某局中人存在严格劣
14、势策略,将此策略剔除,重新构造一个 不包含此策略的新博弈G Step 2、针对新博弈反复执行步骤1,直至无法剔除为止 G Final 。 重复剔除的占优均衡: 若应用上述迭代过程,最终得到的G Final 只有唯一策略组合,那么此策略组合显然就 是此博弈的均衡解。 重复剔除的占优均衡 剔除标准 严格劣势策略:若能找到均衡解,则为占优均衡,且为唯一解,与剔除顺序无关; 弱劣策略:若能找到均衡解,则为占优均衡,但并不能确保唯一 其它均衡可能被剔除,往往与剔除顺序有关。 原博弈G与G Final 的博弈均衡相同30 中国科学技术大学管理学院 2013 重复剔除的占 优均 衡( 续) 例:按严格劣剔除
15、(智猪博弈) 例:按弱劣剔除(市场进入博弈) 5, 1 4, 4 9, -1 0, 0 小猪 按 等待 大 猪 按 等待 重复剔除的占优均衡 100, 80 400, 0 0, -20 400, 0 新入者 进入 退却 原 垄 断 者 默许 阻挠 重复剔除的占优均衡 被剔除掉的NE31 中国科学技术大学管理学院 2013 重复剔除的占 优均 衡( 续) 再例:按弱劣剔除(结果与顺序有关) 2, 12 1, 10 1, 12 0, 12 0, 10 0, 11 0, 12 0, 10 0, 13 2, 12 1, 10 1, 12 0, 12 0, 10 0, 11 0, 12 0, 10 0,
16、 13 博弈可能有多个NE,若某一NE至少使得一个局中人的payoff 比其他任何NE得以改善,同时又不会使任何其它局中人恶化,就 称此NE为Pareto Dominant。32 中国科学技术大学管理学院 2013 重复剔除的占 优均 衡( 续) 回顾:占优策略均衡不要求“理性是共同知识” 重复剔除的占优均衡:理性是共同知识 “所有局中人理性” “所有局中人知道所有局中人理性” “所有局中人知道所有局中人知道所有局中人理性” 33 中国科学技术大学管理学院 2013 重复剔除的占 优均 衡( 续) 例: 若A不能确信B理性: A不能排除B选择策略R的可能 策略U就未必是A的最优选择 即使A确信
17、B理性,但B不知道“A知道B理性”,或B不知道A理性 B不能排除A选择策略D的可能性 策略M就未必是B的最优选择 (1, 0) (1, 2) (0,1) (0,3) (0,1) (2,0)局 中人 局中人 B LMR U A D34 中国科学技术大学管理学院 2013 重复剔除的占 优均 衡( 续) 说明: “理性是共同知识”假设是重复剔除的占优均衡的前提 此假设比较强,可能造成预测不准,因为 1、局中人的理性易受不确定性因素影响 2、局中人的理性有时不仅体现在对较高利益的追求,还可能体现在对高风 险/损失的规避上 如: 重复剔除的占优均衡是(8, 10),但在多数情况下最终结果往往是(7,6
18、)。 由于策略U对于局中人A来说风险太大(8,10) ( 1000,9)(7,6) (6,5) B LR U A D 局 中人 局中人35 中国科学技术大学管理学院 2013 纳什均衡(Nash Equilibrium) 很多博弈不存在重复剔除的占优均衡 须定义更为一般的博弈均衡解 定义4:策略式博弈G=S 1 ,S 2 ,S n ; u 1 ,u 2 ,u n 中,策略组合 s*=(s i *, s -i *)被称作一个Nash均衡,若 = ( ,s ) ( ,s ), , argmax ( ,s ), 1, , ii ii i ii i i i i ii i sS us us s S i
19、N s us i n 将均衡策略替换成其 他策略都不会有改进36 中国科学技术大学管理学院 2013 纳什均衡(Nash Equilibrium) 意义: 任一局中人单方面偏离Nash均衡都不能改进其支付水平;他们都会 理性地坚持自己的策略。 结果是稳定的(stable)、自动实施(自执行)的(self-enforcing) self-enforcing是OR/MS文献中常见的一个专业术语,它用于描述这样的 一个稳定状态 s i *是局中人i对其他局中人策略组合s -i *的最优反应(best response) 在无外力约束的情况下,在本性的趋使下, 各方角力自动能达到的稳定状态 若其它局中
20、人均采用均衡策略,则剩下这一 局中人只有采用均衡策略才是最优的37 中国科学技术大学管理学院 2013 纳什均衡( 续) 此定义可用于检查策略组合是否是NE 以市场进入壁垒博弈为例 100, 80 400, 0 0, -20 400, 0 新入者 进入 退却 原 垄 断 者 默许 阻挠 NE38 中国科学技术大学管理学院 2013 纳什均衡( 续) 划线法:对于两人有限博弈,寻找NE的方法如下 行局中人 针对列局中人的每个策略,分别找出行局中人的最优策略,并 在相应的支付下标记; 按列比较支付元组的第一个元素 列局中人 针对行局中人的每个策略,分别找出列局中人的最优策略,并 在相应的支付下标记
21、。 按行比较支付元组的第二个元素 被标记完全的策略组合就是NE(可能会有多个)39 中国科学技术大学管理学院 2013 纳什均衡( 续) 例: 完全信息静态情况下的田忌赛马是没有NE的 3,3 1,1 1,1 1,1 1,1 1,1 1,1 3,3 1,1 1,1 1,1 1,1 1,1 1,1 3,3 1,1 1,1 1,1 1,1 1,1 1,1 3,3 1,1 1,1 1,1 1,1 1,1 1,1 3,3 1,1 1,1 1,1 1,1 1,1 1,1 3,3 2, 12 1, 10 1, 12 0, 12 0, 10 0, 11 0, 12 0, 10 0, 13 0, 4 4, 0
22、 5, 3 4, 0 0, 4 5, 3 3, 5 3, 5 6, 640 中国科学技术大学管理学院 2013 纳什均衡( 续) 严格/强纳什均衡(Strict/Strong Nash Equilibrium) 定义5:策略式博弈G=S 1 ,S 2 ,S n ; u 1 ,u 2 ,u n 中,策略 组合s*=(s i *, s -i *)被称作强Nash均衡,if and only if ( ,s ) ( ,s ), , arg max ( ,s ), 1, , ii ii i ii i i i i i ii i sS us us s s S i N s us i n = = 400, 0
23、 0, -20 400, 0 100, 80 新入者 进入 退却 原 垄 断 者 默许 阻挠 任何局中人都不存在与强NE均衡策 略无差异的其它策略; 在强NE中,给定其他局中人的策略, 每个局中人的最优策略都是唯一的 强Nash均 衡 弱Nash均 衡41 中国科学技术大学管理学院 2013 四 种均衡之 比较 Nash均衡 vs 重复剔除的占优均衡 vs 占优策略均衡 vs 马锡民解 马锡民解、占优策略均衡、重复剔除的占优均衡必是Nash均衡,反 之未必; Nash均衡在重复剔除严格劣策略过程中必然不会被剔除 注:不适用于弱劣策略剔除过程 在弱劣策略剔除过程中有可能将 Nash均衡剔除。例:
24、 2, 12 1, 10 1, 12 0, 12 0, 10 0, 11 0, 12 0, 10 0, 13 在不同的剔除顺序下,所得到的均衡不同。42 中国科学技术大学管理学院 2013 四 种均衡之 比较 马锡民解 占优策略均 衡 重复剔除的 占优均衡 纳什均衡 适用范围 零/常和博弈 变和博弈 变和博弈 变和博弈 存在条件 鞍点 各方均存在 占优策略 根据占优思 想可将各方 策略范围缩 小到一个 存在任何一 方都不愿单 方面偏离的 状态 一般性 弱强43 中国科学技术大学管理学院 2013 混合策略Nash均衡 Mixed Strategy Nash Equilibrium 并非所有的策
25、略式博弈都有纯策略Nash均衡 例:硬币博弈 同面则A付B一元; 不同面则B付A一元。 -1, 1 1, -1 反面 1, -1 -1, 1 正面 反面 正面 A B 无纯策略NE意味着: 理性的局中人不会确定采取某纯策略,否 则将使己方处于被动地位。 该如何出手?44 中国科学技术大学管理学院 2013 混合策略Nash均衡 Mixed Strategy Nash Equilibrium 思考:剪刀石头布 布 石头 剪刀 布 石头 剪刀 -1, 1 0, 0 1, -1 1, -1 -1, 1 0, 0 -1, 1 1, -1 0, 0 在此游戏中,你是如何思考出拳方式的? 1. 尽可能让自
26、己出拳无规律; 2. 尽可能观察对方出拳的规律 3. 此思路对重复游戏有意义,重复次数越多越好(长期平均)45 中国科学技术大学管理学院 2013 混合策略Nash均衡 Mixed Strategy Nash Equilibrium 局中人选择策略的方式 确定性选择纯策略 以某种概率分布在纯策略中随机选择 混合策略(mixed strategy) 回顾:混合策略定义 策略式博弈G=S 1 ,S 2 ,S n ; u 1 ,u 2 ,u n 中,假定局中人i有m i 个纯策 略,即: ,那么如下任意概率分布均为局中人i的混 合策略。 12 12 1 2 p( , , ) , , , , 0,1,
27、 1 i ii i i i im i i im i i im pp p pp p p p p + = 1 , i i i im Ss s = 46 中国科学技术大学管理学院 2013 混合策略Nash均衡( 续) 纯策略是混合策略的特例 纯策略从策略空间中确定性选择某策略,无“犹豫不 决” 纯策略s ij 混合策 略 混合策略组合(mixed strategy profile) 若记P i 为局中人i的混合策略空间,则称p=(p 1 ,p 2 ,p n ), p i P i 混合策略组合 类似,记 (0, , 0,1, 0, , 0) i p 1 ij p = 11 p (, , ) , p
28、(p ,p ) i ii n ii p pp p = = 47 中国科学技术大学管理学院 2013 混合策略Nash均衡( 续) 对于“剪刀石头布” 纯策略:剪刀、石头、布 混合策略:分别制定出剪刀、石头、布的概率,且三概率之和为 (即构成概率空间),比如 (1/3, 1/3, 1/3):按等概率出拳 (, , ): 以一半概率出“剪刀”,以1/4概率出“石头”和“布” (0, 1/3, 2/3): 从不出“剪刀”,分别以1/3和2/3概率出“石头”和“布” (0, 0, 1):总是出“布” 事实上是纯策略 直觉:在诸多出拳策略中,等概方式是最好的 依据? 只能出三种 拳48 中国科学技术大学
29、管理学院 2013 混合策略Nash均衡( 续) 混合策略 vs 纯策略 不确定性 vs 确定性 为什么局中人可能会选择带不确定性的混合策略而放弃确定性的纯策略? 纯策略会让自己陷入被动 局中人主观因素造成的犹豫不决 外在客观因素的不确定性带来应对策略的不确定性 迷惑对手:为了让其它局中人不能清楚了解己方选择 虽然对手了解己方选择的概率,却不能猜透最终选择 混合策略的不确定性 各局中人最终选择的不确定性 博弈结果的不确定性 期望支付(expected payoffs):平均意义、长期意义上的49 中国科学技术大学管理学院 2013 混合策略Nash均衡( 续) 期望支付(Expected Pa
30、yoff) 对于任意一个混合策略组合 若各局中人最终确定的选择(纯策略组合)是 局中人i的支付为: 发生此情况的概率为: 局中人i的期望支付 12 1 2 p (p ,p , ,p ), p ( , , , ) i n i i i im i pp p P = 12 12 1 ( , , ) , , ni i j j nj ij i i im ss s s S s s 12 12 ( , , ) n i j j nj us s s 12 12 n j j nj pp p 12 12 1 2 12 12 1 2 11 1 (p) ( , , , ) n nn n m mm i j j nj i j
31、 j nj jj j E p p p us s s = = = = 决策依据:己方期 望支付最大化50 中国科学技术大学管理学院 2013 混合策略Nash均衡( 续) 混合策略Nash均衡 定义6:在策略式博弈G= S 1 ,S 2 ,S n ; u 1 ,u 2 ,u n 中,若混合策略 组合p*=(p i *,p -i *)使得 则称p*为一个混合策略纳什均衡 回顾与比较:“(纯策略)Nash均衡”(定义5) p (p ,p ) (p ), p , p argmax (p ,p ), 1, , ii ii i i i i i ii i P E E P iN E in = ( ,s ) (
32、 ,s ), , argmax ( ,s ), 1, , ii ii i ii i i i i ii i sS us us s S i N s us i n = 纯策略NE和混合策略NE统称为博弈的Nash均衡51 中国科学技术大学管理学院 2013 混合策略Nash均衡( 续) 说明: 纯策略Nash均衡是确定稳态,混合策略Nash均衡则为随 机稳态。 任一方单独偏离其对策略的倾向/频率,从统计意义(长 期平均)来说,期望支付水平不会改善。 一旦所有局中人的混合策略达到了Nash均衡,任何一个 都不愿擅自偏离52 中国科学技术大学管理学院 2013 双矩阵博弈的 混合 策 略Nash 均衡
33、双矩阵博弈:两人有限博弈 N1, 2,两人分别有m 1 和m 2 个纯策略 博弈对应的支 付双矩阵为m 1 m 2 两人的支付矩阵(行:己方策略,列:对方策略)分别为 22 22 1 1 1 1 12 12 11 11 12 12 1 1 21 21 22 22 2 2 11 22 (,) (,) ( , ) (,) (,) ( , ) ( , )( , ) ( , ) mm mm m m m m mm mm ab ab a b ab ab a b ab ab a b 12 12 () , () T ij m m ij m m Aa B b = = 53 中国科学技术大学管理学院 2013 双
34、矩阵博弈的混合策略Nash均衡( 续) 两人的混合策略 m 1 和m 2 维向量,表示概率分布 混合策略空间(集) 对于任意混合策略组合p=(p 1 ,p 2 ),两人的期望支付 双矩阵博弈矩阵简洁化 12 p( , , ) ,1 , 2 i i i i im pp p i = = 12 1 ( , , , ) | 1, 0 , 1, 2 i i m i i i im ij ij j P pp p p p i = = = 112 1 2 212 2 1 (p ,p ) p p ; (p ,p ) p p TT E AE B = =54 中国科学技术大学管理学院 2013 双矩阵博弈的混合策略Nash均衡( 续) 定义7 在双矩阵博弈中,如果混合策略组合p*=(p 1 *,p 2 *)满足 称混合策略组合p*为双矩阵博弈的一个混合策略Nash均衡 定义6在双矩阵博弈情形下的特殊化形式 12 12 1 1 21 21 2 2 p p p p , p pp pp , p TT TT AA P BB P