1、博 弈 论 导 论An Introduction to Game Theory,中国科学技术大学管理学院杜少甫,Nash均衡的存在性Existence of Nash Equilibrium,知识准备反应函数(response/reaction function):即最佳反应映射(The best response mapping),在某个博弈中,用于反映一个局中人对其他局中人策略所作出的反应关系的函数。通常在连续情况下,通过一阶条件得到。紧致集(Compact Set):一个欧氏空间(Euclidean Space) Rn的子集被称为紧致的,当且仅当此子集有界(bounded)且封闭(clo
2、sed)。 有界闭集实数集R(一维欧氏空间)中,任一闭区间如0, 1是紧致集;而任一开区间如(0, 1)、0, 1)是非紧致集(not closed);整数集Z不是紧致集(not bounded)平面集R2(二维欧氏空间)中的圆,立体集R3(三维欧氏空间)中的球。注: 作为特例,被视为紧致集。,数学中与凸性(convexity)相关的几个概念凸集(convex set):集合S被称为凸集,当且仅当(iif) 对于a, bS和0, 1,均有a+(1-)b S。S内任两点的直线段仍在S内 凸集是连通的。一维实空间内的区间;二维欧氏空间中每个角都小于180的多边形等。两凸集的交集必为凸集,而并集未必
3、。凸函数(convex function):实值函数f(.)是凸的 iif 函数f(.)的定义域C为凸集且a, bC和 0, 1,均有 f(a+(1-)b) f(a)+(1-)f(b)函数曲线的上境图(曲线以上部分)是个凸集。改为则为严格凸,改成即为凹/上凸函数。拟凸函数(quasi-convex function):实值函数f(.)是拟凸的 iif 函数f(.)的定义域C为凸集且a, bC和0, 1,均有f(a+(1-)b)maxf(a), f(b)改为则为严格拟凸,改为即为拟凹函数参见课程ftp下的参考资料4,a,b,f(b),f(a),a+(1-)b,f(a+(1-)b),f(a) +(
4、1-) f(b),注:有时为了避免混淆,凸/凹函数分别被称为下/上凸函数。MS/OR领域(包括GT)中,数学中的“凸”和“拟凸”习惯上常被称作“凹(concave)”和“拟凹(quasi-concave)”。在阅读文献过程中,要根据上下文理解真正内涵在运筹优化中,函数凸凹性对优化求解很重要。本课程尽量采用数学意义上的说法。对于二次可微函数而言,判断凸性最直接的办法是一元情况:求二阶导数 下凸; 上凸n元情况:求海赛(Hessian)矩阵,即由所有二次偏导构成的nn对称阵。Hessian矩阵:正定下凸;负定上凸。(n个顺序主子式),拟凹(凸) 全局最大(小)值存在,未必唯一;严格拟凹(凸) 全局
5、最大(小)值存在且唯一。,扩展知识点:Hessian矩阵 vs Jacobian矩阵,不动点定理(Fixed Point Theorems),Brouwer不动点定理:设C是Rn中的非空紧凸子集,函数f: CC连续,则必存在xC,使x=f(x)。该点称为不动点(fixed point)。即:Rn中非空紧凸子集到自己的映射必有不动点。例如:单值映射f(x)=x2,x0,1,显然f是0,1 0,1映射,应用此定理可断定必存在不动点;求解x=x2,得到两个不动点x=0和1;若x(0,1),则没有不动点;若x0,1)或(0,1,则有一个不动点;但因定义域和值域不是紧致集,此定理不适用于对这种情况下的不
6、动点存在性判定;任何闭区间内的函数f(x)=x+1无不动点。由于定义域和值域不同,因此此定理也不适用于此。Brouwer不动点定理提供了不动点存在的充分非必要条件(sufficient but unnecessary)在不动点定理所述条件下,函数y=x与y=f(x)必有交点。,集值映射(Set-valued map/function):又称多值映射(Multi-valued map/function),是指函数值是个集合,即一个输入对应一个或多个输出。模糊的:ambiguous, misnomer即:从集合X到集合Y的集值映射定义域为X,值域是由Y的所有非空子集所构成的集合(集合的集合)集合S
7、的所有子集的集合为s|sS ,显然包括。设n=|S|,考虑s|sS 中元素个数(即S的子集数):S的任意个元素所构成的集合均是S的子集,那么由k个元素构成的子集共有 个。而即S元素个数与S的子集数之间是2|S|关系,因此通常定义符号2Ss|sS 。注:此表述源自有限集合,对无限/连续集合也适用。例:,不动点定理(Fixed Point Theorems),单值映射 vs 集值映射单值映射(Single-valued map/function):即传统的映射/函数,即函数值是单一数值,只要自变量值确定,则函数值也就随之唯一确定。明确的:well-defined, unambiguous,不动点定
8、理(Fixed Point Theorems),集值函数有闭图(Closed Graph):若集合(x,y)|y f(x)是XY上的闭子集,则称集值函数f: X2Y有闭图。例: 0, 1区间上的集值函数f(x)=1-x/2, 1-x/4,其覆盖区域是封闭有界的。 有闭图,角谷不动点定理角谷静夫对Brouwer不动点定理的单值映射集值映射一般性扩展Kakutani, S. (1941). A generalization of Brouwers fixed point theorem. Duke Mathematical Journal 8 (3): 457459. S为欧氏空间Rn中的非空紧凸
9、子集,f: S2S是S上的集值映射,且有闭图,对任意xS,f(x)均是非空凸集。那么必存在x*S,使得x*f(x*) 。x*被称为不动点。注:例:0, 1区间上的集值函数f(x)=1-x/2, 1-x/4,其不动点须满足即区间2/3, 4/5内的任一点均为不动点。,Nash均衡的存在性Existence of Nash Equilibrium,例:在两方策略式博弈G=S1,S2; u1, u2中策略空间均是紧致集,但支付函数不连续。每个局中人的支付函数对己方策略都是严格凹/上凸的 最优反应存在且唯一(Existence & Uniqueness)。局中人1的一阶条件局中人1的反应函数局中人2的
10、一阶条件局中人2的反应函数,Nash均衡的存在性Existence of Nash Equilibrium,从上述反应函数可看出:每个局中人对于对方的任何策略均存在唯一的最优反应策略。然而:两反应函数不相交 不可自动实施(self-enforcing) 无纯策略Nash均衡。可从下图看出:假设从局中人的任一策略s10开始,Nash均衡的存在性Existence of Nash Equilibrium,定理1.1 (Debreu, 1952; Glicksberg, 1952; Fan, 1952)在n人策略式博弈中,若每个局中人的纯策略空间Si是欧氏空间上的一个非空紧凸集(nonempty c
11、onvex compact set);支付函数ui(s)连续且对si拟凹,则此博弈必存在一个纯策略NE。(sufficient but unnecessary)Si: 非空、凸、有界、封闭ui(s): 连续、拟凹证明:运用拟凹的性质易于证明。思考:若将“拟凹”改为“严格拟凹”,那么定理可如何表述?,定理1.2:在有限策略式博弈G=S1,Sn; u1,un,混合策略组合p*为NE的充要条件是:对所有局中人i,其每一个纯策略si有证明:见参考资料5定理 1.3: 在任一混合策略组合 中,对局中人i的混合策略 ,必然存在 ,使证明见参考资料6,Nash均衡的存在性Existence of Nash
12、Equilibrium,定理1.4 (Nash, 1950)有限非合作博弈必有Nash均衡纯策略NE或混合策略NE即著名的“有限博弈Nash均衡存在性定理”,简称“Nash定理”证明:主要证明思想是应用角谷不动点定理。见参考资料7定理1.5 (Glicksberg, 1952)在n人策略式博弈中,若每个局中人的纯策略空间Si是欧氏空间上的一个非空紧凸集;支付函数ui(s)连续,则此博弈必存在一个NE(纯策略或混合策略NE)证明方法类似于Nash定理,也是应用不动点定理。vs. Nash定理:允许是某种无限博弈vs. 定理1.1定理1.1提供了纯策略NE存在的一个充分条件,但要求支付函数拟凹。拟
13、凹性在很多情况下并不能满足,此定理将条件进一步放宽,但并不保证一定是纯策略NE。,Nash均衡的多重性,在一个博弈中,Nash均衡往往并不唯一以下介绍有多重Nash均衡的一个典型博弈形式协调博弈Coordination Game (Halpern, 1986)双矩阵博弈G的支付双矩阵为若满足则在局中人1选择其策略1时,局中人2的最优反应是其策略1;局中人1选择其策略2时,局中人2的最优反应是其策略2。此双矩阵博弈G被称为协调博弈。,协调博弈Coordination Game,协调博弈的均衡特点:三个Nash均衡:2个纯策略NE1个混合策略NE(oddness theorem)2个纯策略NE可通
14、过划线法找到(斜对角)设两局中人的混合策略分别为p1=(x, 1-x), p2=(y, 1-y),则,一阶条件,相关均衡Correlated Equilibrium,Aumann(1974)首先提出“相关均衡”概念A solution concept in game theory,比Nash均衡(最著名的博弈解定义)更为一般。Nash均衡(pure or mixed)假定:局中人完全独立、不相关的在很多情况下,局中人对外界信号的接收与反应可能是相关的。比如:关在不同囚室内的犯人虽然是分隔的,但可能收看同一档电视节目,而对局势形成某种判断,从而使策略选择具有相关性。e.g. 警匪新闻主要思想:存
15、在某种公共信号(public signal),每个局中人都按照他对此信号价值的判断/观察(Observation)而采取行动。最终所有局中人都不想偏离某策略,即达到了“相关均衡”在机制设计中有重要应用,机制设计方(如政府)通过释放某种公共信号,引导机制遵循各方向着设计方希望的相关均衡发展。,相关均衡Correlated Equilibrium,例1:协调博弈纯策略Nash均衡(U, L), (D, R)混合策略Nash均衡(1/2, 1/2), (1/2, 1/2)双方期望支付均为若存在公共信号:根据“抛硬币”结果选择策略正面:局中人1选择U,局中人2选择L反面:局中人1选择D,局中人2选择R
16、抛硬币得到正反机会均等1/2有此公共信号后,策略组合(D, L)和(U, R)就不可能出现了,因此双方期望支付为0.55+0.51=3双方的期望支付均会得到提升 优于混合策略Nash均衡公共信号集正面,反面两个局中人对信号集的分区(Partition)是一样的,即都将信号集划分为两区正和反信息分区的目的是:每个分区对应某个策略,信号集,分区1,分区2,分区m,策略1,策略2,策略m,相关均衡Correlated Equilibrium,不同局中人对公共信号集的分区可能不同例2:仍以此博弈为例,公共信号集:A, B, C,各信号出现机会均等 1/3分区策略:局中人1:A U、B, C D局中人2
17、: A, B L、C R各种信号出现时对应的策略组合A(U, L); B(D, L); C(D, R)双方期望支付:51/3+41/3+11/3=10/3此信号集及分区比前一种更优。,相关均衡Correlated Equilibrium,形式化定义策略式博弈S1,Sn; u1,un符号:公共信号有限集; 各信号发生的概率;Pi局中人i的信息分区(Information Partition)方式,其元素均是的子集,表示一个分区,piPi, pi ;i:局中人i的(信号)策略函数, i: Si,此函数满足二元组(, )是个有限的概率空间, 是在上的概率测度策略函数组合: =(1, 2, n)例2中
18、:,相关均衡Correlated Equilibrium,相关均衡策略函数组合*=(1*, 2*, n*)是策略式博弈S1,Sn; u1,un的相关均衡,当对任意=(1, 2, n), i: Si ,有局中人根据自己的信息分区以及(信号)策略函数选择策略一个策略函数代表着局中人的一个策略规则各方理性,寻求使己方期望支付最大化的策略函数,最终达到自动实施(self-enforcing)状态,任何一方不会单方面改变策略函数。,相关均衡Correlated Equilibrium,例3:三人博弈局中人1策略集U, D,局中人2策略集L, R,局中人3策略集A, B, C纯策略Nash均衡:(D, L
19、, A)公共信号集(抛硬币):H, T信息分区策略局中人1:H U, T D局中人2: H L, T R局中人3:H, T A, B, C,即局中人3对信号毫不敏感,没有分区。各种信号出现时,局中人1和2的策略组合H (U, L);T (D, R)局中人3了解此情况,因为各局中人均是先观察信号再决策在完全信息情况下,每个局中人的信号集分区及对应策略是共同知识H (U, L) (U, L, A);T (D, R) (D, R, C)期望支付:局中人1为1/2,局中人2为1/2,局中人3为3,对相关均衡的思考,传统的相关均衡考虑对任一局中人,一个信号只对应一个策略从例3中局中人3的反应可以看出当某
20、信号出现时,并非一定对应一个策略,而是个子策略集。是否可以考虑策略函数为集值映射的情况,i() Si?例如: 3(H)=3(T)=A, B, C在集值映射情况下,是否可以进一步考虑允许不同分区信号的策略函数值(集合)有重叠的情况? 和分属局中人i的不同信息分区,而i() i()例如:假设3(H)=A, B, 3(T)=B, C,均衡选择Equilibrium Selection,相关均衡理论中的关键假设局中人遵守某种规则,根据某个共同观察到的信号出手。问题:若没有公共信号,该如何在多重Nash均衡中选择呢?例:质量博弈之宽带博弈两局中人通过宽带网络通讯,都要安装宽带,有高、低两种带宽选择。这是
21、一个协调博弈两个纯策略Nash均衡:(高,高),(低,低)附加均衡选择规则保守做法:对方可能是损人的应用Minimax法则(低,低)是最终选择乐观做法:对方只为利己,不损人(高,高)是最终选择,1、逐行行内取小2、小中取大,Nash均衡应用举例Cournot寡头竞争,Cournot寡头竞争三家寡头企业:A、B和C,A与B生产产品1,C生产产品2产品1和产品2的关系:替代(substitute)、互补(complement)、无关,用替代参数d反映这种关系,d-1,1d=1完全替代(产品同质);d(0,1)部分替代d=0完全无关d(-1,0)部分互补d=-1完全互补产品1价格p1,产品2价格p2
22、;三企业产量qA, qB, qC,单位生产成本分别为cA, cB, cCBarcena-Ruiz & Espinosa (1999)针对两种垄断产品价格供应量函数关系假设,线性假设:产品供应量越大,市场价格越低。A则反映了市场规模。思考:为什么不带系数?,Nash均衡应用举例 Cournot寡头竞争,Cournot寡头竞争据上述假设,可知记q=(qA, qB, qC),则各企业利润函数分别计算各自的一阶条件,联立方程组,严格凹的,有唯一最大值,Nash均衡应用举例 Cournot寡头竞争,Cournot寡头竞争进而求得均衡价格和均衡利润可围绕替代参数d进一步展开讨论。,若均0即为Nash均衡,
23、Nash均衡应用举例 Hotelling价格竞争博弈模型,前面介绍过的“Bertrand双寡头价格竞争博弈”说明:若两个寡头的产品同质,且双方展开价格竞争,那么Nash均衡价格就是他们的边际成本,长期来说各企业利润为0。这种结果与完全竞争市场的均衡结果一样。这显然与事实不符 Bertrand Paradox解开此悖论的方法 考虑产品差异性产品差异性(Differentiation)产品本身的差异服务水平上的差异时间上的差异空间上的差异等,Nash均衡应用举例 Hotelling价格竞争博弈模型,豪泰林价格竞争模型(Hotelling, 1929)考虑产品同质,但空间位置上的差异性处于不同位置上
24、的消息者购物存在旅行成本(包括时间成本)。成本结构:产品价格+旅行成本问题描述(Problem Characteristic)长度为1的线性城市(如:沿街道/河流排列)消费者均匀分布在0, 1区间,旅行成本为t两个商店:分别位于线性城市两端。即商店1在x=0处;商店2在x=1处。两商店提供单位商品的边际成本均为c消费者到商店1和2的旅行成本分别为tx和t(1-x)假设共有N个消费者,每个消费者具有1单位需求,即会在两商店间选去一家,购1单位商品。商品在商店i中的价格为pi,消费者对商店i中商品的需求函数表示为Di(p1,p2)设x*0,1是消费者无差异点,则若xx*选商店2。消费者均匀分布到商
25、店1的顾客比例为x* ,到商店2的顾客比例为(1- x*)。,Nash均衡应用举例 Hotelling价格竞争博弈模型,豪泰林价格竞争模型此线性市场总需求量为N,则对两家商店的需求量分别为无差异点x*必然满足两商店的利润函数分别为验证二阶条件,均小于0 两方利润函数对己方价格是严格凹的 最大值解存在且唯一 一阶条件获得最优反应函数。,Nash均衡应用举例 Hotelling价格竞争博弈模型,豪泰林价格竞争模型双方的最优反应函数从最优反应函数上得出的管理暗示(managerial implication)对方定价越高,己方定价越高;顾客的旅行成本越高,定价越高;一般化解释:旅行成本产品差异性产品
26、替代性每个商店对周边消费者垄断力、竞争性更接近垄断定价边际成本越高,定价越高。Nash均衡(p1*, p2*)=(t+c, t+c),Nash均衡下的双方利润(支付)均为t/2。,思考:二次旅行成本情况下的博弈建模。,Nash均衡应用举例 合作广告博弈模型,合作广告(Co-op advertising)模型Huang, Z.M., Li, S.X. Co-op advertising models in manufacturer-retailer supply chains: a game approach. European Journal of Operational Research,
27、2001, 135(3): 527-544. (全文:见参考资料8)Huang, Z.M., Adelphi University终身教授问题描述:两阶段供应链(two-echelon supply chain):制造商零售商传统情况下:制造商负责全国性广告投放,建立品牌形象;零售商只管销售。开展合作广告的动机:全国性广告树立品牌形象;局部性广告刺激消息者购买欲望。例:海尔在全国性媒体投放品牌广告,声称海尔家电质量好、服务好等;合肥的国美电器可能会通过地方电视广告、路边广告、公共交通广告等方式告知当地消费者:“买海尔,到国美”局部性广告对制造商和零售商都有利零售商销量增加;制造商销量增加,声誉
28、提升。通过合作广告,零售商获利程度往往不及制造商高 积极性不如制造商,或以此作为谈判砝码要求制造商考虑利益的再分配。为提升零售商积极性,制造商愿意承担局部性广告的部分费用。局部性广告投入力度由零售商决定,Nash均衡应用举例 合作广告博弈模型,合作广告(Co-op advertising)模型零售商决定局部性广告投资a,制造商决定全国性广告投资q。零售商的产品销售量由a和q共同决定 为销售饱和渐近线(可理解为最大市场容量)式中, 和均为正数,则用于描述市场不确定性(扰动项),均值为0期望销售函数即为制造商的合作广告付还政策:分担局部性广告费用比例为t 0, 1制造商和零售商同时行动 静态博弈制造商和零售商的边际利润分别是m和r,Nash均衡应用举例 合作广告博弈模型,合作广告(Co-op advertising)模型制造商、零售商和整个供应链的期望利润为若双方展开静态非合作博弈(同时出手,独立行动)制造商对t和q决策,显然t*=0,对q的一阶条件零售商对a决策,一阶条件,Nash均衡应用举例 合作广告博弈模型,合作广告(Co-op advertising)模型静态非合作博弈下的唯一Nash均衡广告(q*,t*), a*)为管理暗示(Managerial Implications),