1、GAME THEORY 对 策 论,第?章,2018/12/14,Game theory,2,6 矩阵对策,6.1 引言 6.2 对策论的基本概念 6.3 矩阵对策的概念及模型 6.4 矩阵对策的纯策略解(鞍点解) 6.5 矩阵对策的混合策略解(mixed strategic solution) 6.6 矩阵对策的解法,2018/12/14,Game theory,3,6.1.1 何谓对策论(Game Theory)? 6.1.2 对策的例子 6.1.3 对策论的诞生与发展简况,6.1 引 言,2018/12/14,Game theory,4,6.1.1 何谓对策论(Game Theory)?
2、,定义:对策论亦称竞赛论或博弈论,是研究具有斗争或竞争性质现象的数学理论和方法。,2018/12/14,Game theory,5,齐王赛马 决斗问题:神雕侠侣中武林盟主大会,6.1.2 对策的例子,2018/12/14,Game theory,6,6.1.3 对策论的诞生与发展简况,早期工作 1912年E.Zermelo 关于集合论在象棋对策中的应用1921年E.Borel 引入最优策略1928年J.V.Neumann证明了一些猜想,2018/12/14,Game theory,7,6.1.3 对策论的诞生与发展简况,产生标志1944年J.V.Neumann和O.Morgenstern”对策
3、论与经济行为” (Theory of Games and Economic Behavior) 发展成熟Nash均衡、经济博奕论、信息不对称对策和广义对策,2018/12/14,Game theory,8,6.2 对策论的基本概念,6.2.1 局中人(Player) 6.2.2 策略(Strategy) 6.2.3 支付与支付函数,2018/12/14,Game theory,9,6.2.1 局中人(Player),1、局中人:在一场竞争或斗争中的决策者称为该局对策的局中人通常,一局对策具有两个或两个以上-决策者,一般用I表示局中人集合:,2018/12/14,Game theory,10,6
4、.2.1 局中人(Player),2、对策分类:依据局中人的数量,可将对策分为,有限对策,无限对策(n2),对策,无限零和对策,无限非零和对策,有限零和对策,有限非零和对策,2018/12/14,Game theory,11,6.2.2 策略(Strategy),1、 策略与策略集 局中人指导自己自始至终如何行动的一个方案,称为策略(Strategy) 由所有策略构成的集合,称为策略集(Strategy Set),2018/12/14,Game theory,12,6.2.2 策略(Strategy),2、策略集的元素:对于局中人i,iI,都有自己的策略集Si,通常每一局中人的策略集中至少应包
5、括两个策略,对于例4的包、剪、锤游戏。假设有两个局中人I=甲,乙,甲的策略集为S甲=(包)、(剪)、(锤)=a1、a2、a3;乙的策略集为S乙=(包)、(剪)、(锤) =b1、b2、b3;,2018/12/14,Game theory,13,6.2.3 支付与支付函数,1、局势:各局中人所选定的策略形成的策略组 2、策略组若si是第i个局中人的一个策略,则n个局中人的策略组 s=(s1,s2,sn)就是一个局势。,2018/12/14,Game theory,14,6.2.3 支付与支付函数,例如,对于包、剪、锤游戏。假设有两个局中人I=甲,乙,甲的策略集为S甲=(包)、(剪)、(锤)=(a1
6、)、(a2)、(a3);乙的策略集为S乙=(包)、(剪)、(锤) =(b1)、(b2)、(b3);则甲的一个策略ai,和乙的一个策略bj就构成一个局势sij.,2018/12/14,Game theory,15,6.2.3 支付与支付函数,3、赢得(支付):当每个局中人所采取的策略确定后,他们就会得到相应的收益或损失,称为局中人的支付(Payoff)。若甲的一个策略a3(锤),乙的一个策略b2(剪),则构成一个局势s32 。在局势s32下,甲的支付为:,乙的支付,2018/12/14,Game theory,16,6.2.3 支付与支付函数,4、支付(赢得)函数: 不同的策略会导致不同的支付,
7、因此,支付是策略(准确的说应该是局势)的函数,称为支付函数(payoff function)。 对于例4,两人的支付函数分别记为:,和,例如,对于策略a3, b1,2018/12/14,Game theory,17,6.2.3 支付与支付函数,5、零和对策和非零和对策根据各局中人支付的代数和是否为0,将对策分为零和对策和非零和对策(non-zero-sum games)。若在任一局对策中,全体局中人支付的总和为0,则该对策称为零和对策,否则称为非零和对策(non-zero-sum games)。对于前例,显然为零和对策,因为,2018/12/14,Game theory,18,6.2.3 支付
8、与支付函数,6、对策分类根据局中人的数目和支付函数代数和,有限对策,n人对策(n2),对策,合作对策,非合作对策,2018/12/14,Game theory,19,6.3 矩阵对策的概念及模型,1、定义:两个人零和对策称为矩阵对策例,“包、剪、锤”游戏中,甲、乙双方各有三种不同的策略,分别为:,2018/12/14,Game theory,20,6.3 矩阵对策的概念及模型,甲的支付情况如下表,表6.1,2018/12/14,Game theory,21,6.3 矩阵对策的概念及模型,齐王赛马,田忌策略,齐王赢得,齐王策略,上中下,上下中,中上下,中下上,下中上,下上中,2018/12/14
9、,Game theory,22,6.3 矩阵对策的概念及模型,表6.1中的数字用矩阵的形式表示,A称为甲的支付矩阵。显然,乙的支付矩阵为-A。 因此,该对策可记为:,2018/12/14,Game theory,23,6.3 矩阵对策的概念及模型,2、矩阵对策的模型 一般地,若局中人 ,的策略集分别为:,为了与后面的概念区分开来,我们称i为的纯策略, j为的纯策略,对于纯策略i, j构成的策略偶(i, j)称为纯局势。,2018/12/14,Game theory,24,6.3 矩阵对策的概念及模型,若的支付矩阵为:,ij表示局势(i,j)下,局中人的支付,则矩阵对策可记为G=S1,S2,A:
10、即矩阵对策模型。,2018/12/14,Game theory,25,6.4 矩阵对策的纯策略解,6.4.1 矩阵对策的纯策略解例解过程 6.4.2 矩阵对策的纯策略解理论基础 6.4.3 矩阵对策的纯策略解性质,2018/12/14,Game theory,26,例5 设二人零和对策 G=S1, S2, A,其中,6.4.1 矩阵对策的纯策略解例解过程,而且局中的支付矩阵为:,两位局中人都想自己的支付最大化。,2018/12/14,Game theory,27,6.4.1 矩阵对策的纯策略解例解过程,这里我们认为局中人都是理智的,从矩阵A进行逻辑推理可知:如果局中人采取3作策略,虽有可能获得
11、最大支付18,但是,局中人分析到的这种心理,就会采取3策略,使不仅得不到最大值18,反而取得很坏的结果-8;同样,局中人为了得到最大支付+12(即局中人的支付-12),会采取 2作为策略,但局中人也会猜到的这种心理,而采取 2作策略,这样局中人只能得到-3。,2018/12/14,Game theory,28,6.4.1 矩阵对策的纯策略解例解过程,从以上的分析可以看出,局中人选取最优策略时应该考虑到也是十分理智与精明的,的策略是要以支付最少为目的,所以不能存在任何侥幸心理。局中人也应作同样的考虑。,对于局中人来说,应该是从最坏处着想向最好处努力。,2018/12/14,Game theory
12、,29,6.4.1 矩阵对策的纯策略解例解过程,对局中人来讲,各策略的最坏结果分别为: min-6,2,-7=-7 min5,3,6=3min18,0,-8=-8min-2,-12,7=-12 这些最坏的情况中,最好的结果是:max-7,3,-8,-12=3,2018/12/14,Game theory,30,6.4.1 矩阵对策的纯策略解例解过程,同样,对局中人而言,各策略的最坏的结果分别为:max-6,5,18,-2=18max2,3,0,-12=3max-7,6,-18,7=7 在这些最坏的情况中,最好的结果(损失最小)是min18,3,7=3,2018/12/14,Game theor
13、y,31,6.4.1 矩阵对策的纯策略解例解过程,2018/12/14,Game theory,32,6.4.1 矩阵对策的纯策略解例解过程,课堂练习:求解对策 G=S1,S2,A 已知:,2018/12/14,Game theory,33,定义1 对于矩阵对策G=S1,S2,A,如果存在纯局势,6.4.2 矩阵对策的纯策略解理论基础,则称局势 为对策G在纯策略中的解。亦称其为G的鞍点(saddle point):,(列中最大,行中最小),使得对任意j=1, ,n,及任意i=1, m有:,2018/12/14,Game theory,34,6.4.2 矩阵对策的纯策略解理论基础,分别称为局中人
14、,的最优纯策略。 称 为对策G的值(value),记为,2018/12/14,Game theory,35,6.4.2 矩阵对策的纯策略解理论基础,定理1 矩阵对策G=S1,S2,A存在最优纯策略的充分必要条件为:,2018/12/14,Game theory,36,6.4.2 矩阵对策的纯策略解理论基础,求对G的解和值。,例6 已知 G=S1,S2,A,其中,2018/12/14,Game theory,37,6.4.2 矩阵对策的纯策略解理论基础,解:根据A可得,2018/12/14,Game theory,38,6.4.2 矩阵对策的纯策略解理论基础,由于:,四个局势均为G的鞍点,且,故
15、知:,2018/12/14,Game theory,39,6.4.3 矩阵对策的纯策略解性质,从上例可知,对策的解可以是不唯一的,但对策的值是唯一的。对策解不唯一时,应满足下面两条性质:,是矩阵对策G的两个解,则,即对策值相等,它们在矩阵中的元素相同。,2018/12/14,Game theory,40,6.4.3 矩阵对策的纯策略解性质,2. 可交换性:若,与,是矩阵对策G的两个解,则,与,也是对策的解。,2018/12/14,Game theory,41,6.4.3 矩阵对策的纯策略解性质,是不是每一个矩阵对策都有纯策略解(鞍点)?,答案是否定的。,2018/12/14,Game theo
16、ry,42,6.5 矩阵对策的混合策略解,6.5.1 混合策略与混合扩充(mixed strategic solution) 6.5.2 解的基本定理,2018/12/14,Game theory,43,6.5.1 混合策略与混合扩充,1、问题提出,2018/12/14,Game theory,44,6.5.1 混合策略与混合扩充,该对策问题表明不存在使对立双方达到平衡的局势,因此,局中人采取任何一种纯策略,都有一定的风险。所以,在这种情况下,局中人必须隐瞒自己选取策略的意图。,2018/12/14,Game theory,45,6.5.1 混合策略与混合扩充,2、问题处理方案设计 这时我们可
17、以设想局中人随机地选取纯策略来进行对策。即在一局对策中,局中人以概率,来选取纯策略,其中的,满足,于是得到一个m维的概率向量,2018/12/14,Game theory,46,6.5.1 混合策略与混合扩充,同样对于局中人,有相应的一个n维的概率向量,满足,yj表示局中人选取纯策略j的概率。,2018/12/14,Game theory,47,6.5.1 混合策略与混合扩充,3、混合策略概念引入 定义:若给定一个矩阵对策G=S1,S2,A ,其中,则我们把纯策略集对应的概率向量:,与,分别称作局中人、的混合策略,(X,Y)称为一个混合局势。,2018/12/14,Game theory,48
18、,6.5.1 混合策略与混合扩充,如果局中人选取的策略为,局中人选取,由于两局中人分别选取策略,的事件可以看成使相互独立,4、混合策略的局中人支付 如果局中人选取的策略为,2018/12/14,Game theory,49,6.5.1 混合策略与混合扩充,就是局中人的支付值。,所以局势(i,j)出现的概率是xiyj。从而知局中人支付ij的概率是xiyj。 于是,数学期望值:,2018/12/14,Game theory,50,6.5.1 混合策略与混合扩充,令:,5、混合扩充,2018/12/14,Game theory,51,6.5.1 混合策略与混合扩充,分别称为局中人、的最优(混合)策略
19、.,称为对策G(在混合意义下的)值,记为,2018/12/14,Game theory,52,6.5.1 混合策略与混合扩充,解:显然该问题无鞍点解。设局中人、 的混合策略分别为:X=(x1,x2),Y=(y1,y2).则,2018/12/14,Game theory,53,6.5.1 混合策略与混合扩充,则局中人支付的数学期望为:,2018/12/14,Game theory,54,6.5.1 混合策略与混合扩充,可见:当,2018/12/14,Game theory,55,6.5.1 混合策略与混合扩充,显然,2018/12/14,Game theory,56,6.5.1 混合策略与混合扩
20、充,由定义1知:,分别是局中人、的的最优策略,且,2018/12/14,Game theory,57,6.5.2 解的基本定理,定理2 (基本定理) 任意一个矩阵对策,其中,一定有解(在混合策略意义下),且如果G的值是V,则以下两组不等式的解是局中人,的最优策略:,2018/12/14,Game theory,58,6.5.2 解的基本定理,2018/12/14,Game theory,59,6.5.2 解的基本定理,可用例7验证,定理3 若 是对策G(同前)的最优混合局势,则对某一个i或j来说:,2018/12/14,Game theory,60,6.5.2 解的基本定理,V,V,2018/
21、12/14,Game theory,61,6.6 矩阵对策的解法,6.6.1 图解法 6.6.2 优势法 6.6.3 简化计算法 6.6.4 线性规划解法,2018/12/14,Game theory,62,6.6.1 图解法,例8 已知:,其中,求矩阵对策的解和值。,2018/12/14,Game theory,63,解: 设局中人 的混合策略为(x,1-x)T,x0,1。 对局中人而言,他的最少可能收入为局中 人选取1,2所确定的两条直线(定理3知):,6.6.1 图解法,V1=5x+20(1-x)=20-15x V2=35x+10(1-x)=25x+10,因为x1和x2一定大于0,在x处
22、的纵坐标中的最小者. 局中人用“最大最小”原则选取自己的策略,即:,2018/12/14,Game theory,64,D点为极值点, D点坐标为:,即,的最优混 合策略为:,从上图可以看出:,就是折线EDF.,2018/12/14,Game theory,65,6.6.1 图解法,同理,对局中人而言有,V=5y+35(1-y)=35-30yV=20y+10(1-y)=10+10y,最小最大点为:,即,的最优解为 :,对策值为:,2018/12/14,Game theory,66,6.6.1 图解法,2018/12/14,Game theory,67,6.6.1 图解法,课堂练习:求解下列矩阵
23、对策,已知赢得矩阵为:,2018/12/14,Game theory,68,6.6.1 图解法,例9 已知:,其中,求对策的解和值。,解:显然无鞍点,作混合扩充:,2018/12/14,Game theory,69,6.6.1 图解法,对局中人而言,若选取,时,的最小可能收入为以下四条直线在x处 纵坐标中的最小者,v=2x+4(1-x)=4-2x (1) v=3x+(1-x)=2x+1 (2) v=x+6(1-x)=-5x+6 (3) v=5x (4),2018/12/14,Game theory,70,6.6.1 图解法,从图上可以看出 B点坐标即为所求的极值点.,A,B,(2),(3),(
24、1),(4),B点坐标为:,即,的最优解为,2018/12/14,Game theory,71,6.6.1 图解法,同理可得: v=2y1+3y2+y3+5y4 (5)v=4y1+y2+6y3 (6) 由上节的定理3求出的最优解 将 分别代入方程(1)(4)得:,2018/12/14,Game theory,72,6.6.1 图解法,定理3的(4),定理3的(2),定理3的(2),定理3的(4),2018/12/14,Game theory,73,6.6.1 图解法,代入(5)、(6)得:,解之得:,故的最优策略为,2018/12/14,Game theory,74,6.6.2 优势法,对于一
25、般的矩阵对策,其中,定义3 若对固定的i、k有,若对固定的j和l,有,则称,优超,,记为,则称,优超,,记为,2018/12/14,Game theory,75,6.6.2 优势法,(1),定理4 设G中的某个,被其余的,之一优超,由G可得,,其中,于是有,(2),中局中人的最优策略就是G中的,最优策略;,2018/12/14,Game theory,76,6.6.2 优势法,若,是在,中的最优解,则,为在G中的最优解.,(3),2018/12/14,Game theory,77,6.6.2 优势法,例10 已知某矩阵对策G的支付矩阵为:,求解这个矩阵对策。,2018/12/14,Game t
26、heory,78,6.6.2 优势法,解:显然无鞍点,由于A的阶数为,图解法失效。由定义可知,由定理1可将该问题简化为:,2018/12/14,Game theory,79,6.6.2 优势法,可用图解法求得最优解和值分别为:,由,又可看出:,从,又可看出:,,因此得:,2018/12/14,Game theory,80,6.6.2 优势法,即可得到对策G的解为:,值为,V=5。,2018/12/14,Game theory,81,6.6.3 简化计算法,定理5 若矩阵对策,其中d为常数,则G1与G2有相同的解,且对策的值相差一个常数d,即:,2018/12/14,Game theory,82
27、,6.6.3 简化计算法,推论1 若矩阵对策,其中k0为常数,则G1与G2有相同的解,且,2018/12/14,Game theory,83,6.6.3 简化计算法,例11 已知某矩阵对策G的支付矩阵如下:,解:由推论1可取,得同解矩阵:,2018/12/14,Game theory,84,6.6.3 简化计算法,由定理1可取d=-2,简化为:,由 v=4x+0(1-x) =4xv=0x+1(1-x)=1-x,则,由 v=4y+0(1-y) =4yv=0y+1(1-y)=1-y,则,2018/12/14,Game theory,85,6.6.3 简化计算法,原问题的解为:,2018/12/14
28、,Game theory,86,6.6.4 线性规划解法,考虑一般的问题: 其中,其混合扩充为:,2018/12/14,Game theory,87,6.6.4 线性规划解法,当局中人选定任一混合策略 时 便确定了n个数:,因为局中人的支付期望值为:,2018/12/14,Game theory,88,6.6.4 线性规划解法,若矩阵对策 的值为 则由定理2可知,2018/12/14,Game theory,89,6.6.4 线性规划解法,不失一般,假设V0,令,定理 2的第一组不等式,2018/12/14,Game theory,90,6.6.4 线性规划解法,2018/12/14,Game
29、 theory,91,6.6.4 线性规划解法,同理的最优混合策略可以化归为:,值大于零的矩阵对策的求解可以转化成为求解一对互为对偶的线性规划问题()和().,2018/12/14,Game theory,92,6.6.4 线性规划解法,例12 设有一个矩阵对策,其局中人的支付矩阵为,求最优解及值。,2018/12/14,Game theory,93,6.6.4 线性规划解法,解:显然无鞍点解,求解问题可化成两个互为对偶的线性规划问题:,2018/12/14,Game theory,94,6.6.4 线性规划解法,2018/12/14,Game theory,95,6.6.4 线性规划解法,通过线性规划()或()可得:,2018/12/14,Game theory,96,6.6.4 线性规划解法,即原问题得解为,值为:,2018/12/14,Game theory,97,第6章 对 策 论,