收藏 分享(赏)

电子课件第七章对策论v - PowerPoint Presentation.ppt

上传人:czsj190 文档编号:4664280 上传时间:2019-01-06 格式:PPT 页数:120 大小:1.05MB
下载 相关 举报
电子课件第七章对策论v - PowerPoint Presentation.ppt_第1页
第1页 / 共120页
电子课件第七章对策论v - PowerPoint Presentation.ppt_第2页
第2页 / 共120页
电子课件第七章对策论v - PowerPoint Presentation.ppt_第3页
第3页 / 共120页
电子课件第七章对策论v - PowerPoint Presentation.ppt_第4页
第4页 / 共120页
电子课件第七章对策论v - PowerPoint Presentation.ppt_第5页
第5页 / 共120页
点击查看更多>>
资源描述

1、第7章 对 策 论,内容提要 对策模型中的基本要素 矩阵对策(两人有限零和对策)的纯策略 矩阵对策的混合策略 求解矩阵对策的方法,7,CHAPTER,7.1 引言,对策论也叫做博弈论。 “博弈”一词的英文单词是Game,意为对策、游戏等;因此,一谈到博弈,人们自然会想到游戏。对策论的早期思想也确实源于游戏。在诸如下棋、打牌、划拳等游戏中,人们要解决的问题是如何才能获胜。这实际上是当事人面对一定的信息量寻求最佳行动和最优策略问题。,7.1 引言,在实际生活中,许多游戏都反映了对策论的思想。例如,在人们非常熟悉的“石头、剪刀、布”的游戏中,我们的问题是:对方如何行动,而我又将如何应对才能取得胜利?

2、这实际上就涉及到了对策论的核心问题,即对策论以对方的行为作为自己决策的依据,并寻求最佳。但对策论不仅仅是指游戏,它研究的是当人们的行为存在相互作用时的策略行为及其后果。社会生活中的许多现象,都带有相互竞争与合作的特征,可以说,一切都在博弈或对策之中。,7.2 对策模型的基本要素,为了对对策问题在数学上进行分析,需要建立对策问题的数学模型,称之为对策模型。根据所研究问题的性质的不同,可建立不同的对策模型。不论模型在形式上有何不同,但模型都必须包括以下几个基本要素。,7.2 对策模型的基本要素,1局中人在一个对策行为中,有权决定自己行动方案的对策参加者被称为局中人。一般要求一个对策中至少有两个局中

3、人。局中人的集合用字母I表示。,7.2 对策模型的基本要素,局中人除了理解为个人外,还可以理解为集体(如球队、交战国、企业公司等),也可以把大自然理解为局中人(因为人类经常处于和大自然的斗争状态中);另外,还假定局中人都是聪明的,有理智的。,7.2 对策模型的基本要素,同时,为使所研究的问题更加清晰,把那些利益完全一致的参加者们看做一个局中人,因为他们利害一致,必使他们齐心合力,相互配合行动如一个人。例如,桥牌游戏中,东西双方利益一致,南北两面得失相当,所以虽有四人参加,只能算有两个局中人。我们称只有两个局中人的对策现象为“两人对策”(如象棋、桥牌),而多于两个局中人的对策称为“多人对策”。另

4、外,根据局中人之间是否允许进行合作,还可有“结盟对策”和“不结盟对策”等。,7.2 对策模型的基本要素,2策略 一局对策中,每个局中人都有供他选择的实际可行的完整的行动方案。此方案不是某一步的行动方案,而是指导自始至终如何行动的一个方案。局中人一个可行的自始至终通盘筹划的行动方案,称为这个局中人的一个策略。而把这个局中人的策略全体,称做这个局中人的策略集合。,7.2 对策模型的基本要素,例如,在下象棋中“当头炮”只作为某一个策略的组成部分,而并非一个策略。在齐王与田忌赛马的例子中,如果一开始就要把各人的三匹马排好次序,然后依次出赛。那么,三匹马排列的一个次序就是一个完整的行动方案,于是被称为一

5、个策略。例如,用“上、中、下”表示首先是上马出赛,其次是中马出赛,最后是下马出赛这样一个策略。显然,各局中人都有6个策略,即,7.2 对策模型的基本要素, 上、中、下; 上、下、中; 中、上、下; 中、下、上; 下、中、上; 下、上、中。 这个策略全体就是局中人的策略集合。如果在一局对策中,各个局中人都有有限个策略,则称之为“有限对策”(齐王与田忌赛马就是一个有限对策);否则称之为“无限对策”。,7.2 对策模型的基本要素,3局势集合在对策过程中,从每个局中人的策略集合中各取一个策略,所组成的策略组称做“局势”,可能产生的各种局势的全体,被称为局势集合。局势集合用字母表示。在某些局势下对局结束

6、,这种局势称为最终局势。,7.2 对策模型的基本要素,4收益函数一局对策结束之后,对每个局中人来说,不外乎是胜利或失败,名次的前后,以及其他物质的收入或支出等,这些可以统称之为“得失”或“益损”。在齐王与田忌赛马的例子中,最后田忌赢得1千金,而齐王损失1千金,即为这局对策(结局时)双方的“得失”。,7.2 对策模型的基本要素,实际上,每个局中人在一局对策结束时的得失,与局中人所选定的策略有关。例如,上述赛马的例子中,当齐王出策略“上、中、下”,田忌出策略“下、上、中”时,田忌得千金;而如果齐王与田忌都出策略“上、中、下”时,田忌就得付出三千金了。所以用数学语言来说,一局对策结束时,每个局中人的

7、“得失”是全体局中人所取定的一组策略的函数。通常称为“收益函数”。,7.2 对策模型的基本要素,在最终局势下,局中人kI的收益函数记做:H(k,)。在对策论中,每个局中人的“得失”是“局势”的函数。如果在任一“局势”中,全体局中人的“得失”相加总是等于零时,这个对策就称为零和对策(上述齐王与田忌赛马就是一个零和对策)。否则称为“非零和对策”。,7.2 对策模型的基本要素,对策分为静态对策与动态对策两大类;静态对策分结盟与不结盟两种;不结盟对策又以局中人两个或多个,策略集有限或无限,收益函数之和是否为零,分成种种类型的对策模型。例如,两人有限零和对策,多人有限零和对策,无限对抗对策;结盟对策有联

8、合对策与合作对策两种(其中有阵地对策)。此外还有随机对策、微分对策,等等。本教材仅仅讨论最基本的两人有限零和对策模型。,7.3.1 矩阵对策(两人有限零和对策)的表示,下面继续讨论齐王赛马的例子:以1(上、中、下)表示齐王以“先用上等马、再用中等马、最后用下等马”次序参加比赛。也就是说它是齐王的一个策略。于是齐王共有6个策略(3的全排列P33!3216),即,7.3 矩阵对策 (两人有限零和对策),7.3.1 矩阵对策(两人有限零和对策)的表示,1(上、中、下) 2(上、下、中) 3(中、上、下) 4(中、下、上) 5(下、中、上) 6(下、上、中)同理,对田忌来讲也有6个策略,分别为1(上、

9、中、下) 2(上、下、中) 3(中、上、下) 4(中、下、上) 5(下、中、上) 6(下、上、中),7.3.1 矩阵对策(两人有限零和对策)的表示,当齐王选取策略1(上、中、下),田忌选取策略1(上、中、下)进行比赛,就形成一个局势(1,1)。这时,由于在同等级的马中,田忌的马不如齐王的马,所以齐王在这一局势下,每个等级的马都胜过田忌的马,齐王他可以得到3千金。同理,在局势(1,2)下,齐王可以得到1千金,等等。齐王在不同局势下的不同收益可用矩阵表示为,7.3.1 矩阵对策(两人有限零和对策)的表示,1 2 3 4 5 6,7.3.1 矩阵对策(两人有限零和对策)的表示,矩阵中的元素1和3是表

10、示齐王得到的千金数,同时也是田忌应付的千金数;1是齐王应付的千金数,同时也是田忌所得到的千金数。对于两人有限零和对策来说,局中人的收益矩阵给定之后,两个局中人就便于各自考虑选取最合适的策略,以谋取最大的收益。,7.3.1 矩阵对策(两人有限零和对策)的表示,一般地:用、表示两个局中人,局中人有m个策略,即1,2,m;局中人有n个策略,即1,2,n。当选取策略i,选取策略j,就形成一个局势(i,j),这时局中人的收益为aij,局中人的收益为aij(共有mn个局势)。矩阵A (a ij)称为局中人的收益矩阵,即,7.3.1 矩阵对策(两人有限零和对策)的表示,显然矩阵A (aij)完全确定了这个对

11、策。,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,例7.1 设有一矩阵对策,局中人I的收益矩阵为,试研究双方策略。,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,解 由A可以看出,局中人的最大收益值是9,要想达到这个目的,他就得选策略3。然而局中人也在考虑,因为局中人有出3的心理状态,要想使自己有较大的赢得,就想选3作为对策。这样不仅不能使局中人得到9,反而会失去10(即得10)。同样,局中人也会想有出3的可能,于是想出4来对付,使他不但得不到10反而输掉6,等等。,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,这样一来,双方都必然要考虑风险,考虑对方会设法使自己收入最小;

12、因此,都应当从最坏处着想,去尽量争取最好的结果。这就是所谓的保守准则,保证最小收益,即max min准则。,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,对局中人来说,若他选择策略1,他的收益可能是8(当选择策略3),这是他采取1时能保证得到的最小收益。同样,他选择2、3、4时,他能保证得到的最小收益分别是(即对应行的最小元素)2、10、3;因此,当他采取策略2时,他可保证收益至少为2,而当他采取其他策略时,他的收益可能小于2。在这个意义下(也即max min准则),我们说2是的最优策略。,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,同样,局中人采取策略1、2、3时,他的损失分别

13、为(对应列的最大元素)9、2、6。因此,他的最优策略(按min max准则)是2,可保证损失不超过2。结果,局中人按max min准则选取策略2,局中人按min max准则选取2,双方都得到了他们预想的收益,这是一种最稳妥的行为。我们把称(2, 2)称为对策G的最优局势。,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,求最优策略的过程用数学式子描述如下:对局中人来讲,就是先在矩阵A每一行元素中取最小值,即 min 6 ,1 ,88 min 3 ,2 ,4=2 min 9 ,1 ,1010 min 3 ,0 ,63 再从这些最小值中取最大值,即 max8 ,2 ,10 ,32,7.3.2

14、矩阵对策 (两人有限零和对策)的纯策略,因此,由上面矩阵A可知,局中人的最优策略为2。对局中人来讲,先在矩阵A每一列元素中取最大值,即 max 6 ,3 ,9 ,39 max 1 ,2 ,1 ,02 max 8 ,4 ,10 ,66再从这些最大值中取最小值,即 min 9 ,2 ,62,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,因此,由上面可知,对局中人来讲最优策略为2 。 2是对策G的值,对策值用VG表示,即 VG 2,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,一般地,设局中人、都采用保守准则,保证最小收益,即max min准则。那么对局中人来说,他应对自己每一种可以选择

15、的策略求出其最小的收益,再选择最小收益中收益最大的那个策略。对收益矩阵A (aij)来说,就是先对每一行中求最小值,再在这些最小值中选出最大值。即,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,对局中人来说,A是他的损失矩阵,他的收益是aij;所以他对A使用保守准则时,应当先在每一列中求出最大值,再在这些最大值中选择最小的那个,即,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,通过上面讨论可以看到:在对策中,局中人、都采用保守准则,最后出现了一个平衡局势(i*,j*),这个局势双方均可接受,且对双方来说都是一个最稳妥的结果。我们把这个平衡局势(i*,j*)称为鞍点。,7.3.2 矩

16、阵对策 (两人有限零和对策)的纯策略,鞍点的定义:设对策G的收益矩阵为A (aij),若 ,且等于矩阵元素i*j*;那么,(i*,j*)称为对策G的一个鞍点,ai* 称为局中人的最优纯策略,j*称为局中人的最优纯策略,VGi*j*称为对策G的值。,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,例7.2 设有一矩阵对策,局中人的收益矩阵为,求对策的鞍点和对策值,局中人的最优策略。,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,解 对局中人来说,将矩阵每行元素取最小值,即 第一行 第二行 第三行 第四行,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,再从4个最小值中取最大值,即,

17、故有,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,对局中人来说,将矩阵的每一列元素取最大值,即,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,再从最大值中取最小值,即,故有,因为,又有,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,所以对策值VG 2,鞍点为(2,2),局中人的最优纯策略为2,局中人的最优纯策略为2。,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,例7.3 某单位采购员在秋季时要决定冬季取暖用煤的采购量。已知在正常气温条件下需要用煤15吨,在较暖和较冷气温条件下分别需要用煤10吨和20吨。假定冬季的煤价随着天气寒冷程度而变化:在较暖、正常、较冷气温条件

18、下每吨煤的价格分别为100元、150元和200元,又设秋季时每吨煤的价格为100元。问在没有关于当年冬季气温情况准确预报的条件下,秋季时应采购多少吨煤才能使总支出最少?,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,这个问题可看成一个对策问题。把采购员看成一个局中人,他有3个策略:分别是在秋天时购买10吨、15吨、20吨煤,记为1、2、3;本对策的另一局中人可看成大自然,它也有3个策略:分别是出现较暖、正常、较冷的冬季,记为1、2、3。,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,现把该单位冬季用煤的全部费用(秋季购煤费用与冬季不够时再补购的费用之和)作为采购员的收益,得到收益矩

19、阵如下:,7.3.2 矩阵对策 (两人有限零和对策)的纯策略,由于,知该对策的解为(3, 3),即采购员秋季购煤20吨较好。,7.3.3 矩阵对策的混合策略,由上面讨论可知,在一个矩阵对策A (aij)中,局中人能保证的最小可得收益为,局中人能保证的最大所失为,7.3.3 矩阵对策的混合策略,一般而言,局中人的收益不会多于局中人的所失,所以总有,即有,7.3.3 矩阵对策的混合策略,若等号成立,即当v1v2时,矩阵对策在纯策略意义下有解,且VG v1 v2。然而,实际中出现的更多情况是等号不成立,即为 的情况。 这时鞍点不存在,在纯策略意义下双方都不存在最优策略。此时,就需要采用混合策略。,7

20、.3.3 矩阵对策的混合策略,例7.4 设矩阵对策,局中人的收益矩阵为,试问这个对策有没有鞍点?如果没有,任何求解?,7.3.3 矩阵对策的混合策略,解 求出每一行的最小元素,即第一行:1;第二行:2。这里第一行的1元素不是它所在列里的最大元素;同样,第二行中的元素2也不是它所在列里的最大元素。,7.3.3 矩阵对策的混合策略,而,故,因而该对策不存在鞍点,没有纯策略意义下的解,两个局中人也没有最优纯策略。,7.3.3 矩阵对策的混合策略,面对这种情况,局中人应如何选择纯策略参加对策呢?局中人也许总想选取第二个策略(即第2行),这是由于他最多可以赢得4元和最少可以赢得2元。那么他是不是总是采用

21、这个策略呢?假若是,那么局中人就会抓住这一点并选择第二个策略(即第2列),因为选择这种策略,他只能输掉2元。然而,局中人大概应该开始选择赢得3元的第一个策略(即第1行)。因为,在一个没有鞍点的对策里,局中人应该经常改变他们的策略,而不应当总是采用同一个策略。这就要求随机地选择策略。,7.3.3 矩阵对策的混合策略,实际上,一个局中人应制订一个使他的对手不能发现的策略的变更模型,也就是说不能一成不变。例如,局中人以40%的机会选择第一个策略(具有概率为0.4),局中人以80%的机会选择第二个策略(具有概率为0.8),这就是混合策略的概念。这种混合策略的概念,在对策论中是非常重要而有用的。如果局中

22、人采用的策略是混合的,那么这种对策称为混合策略对策。,7.3.3 矩阵对策的混合策略,假定已经知道了每个局中人选择某一策略的概率。那么,当采用混合策略时,所谓“对策的收益”是多少呢?因为收益是根据一对纯策略来确定的,而在混合策略的情况下,我们并不知道哪一个策略被采用,所以对于只进行一次的对策来说,是不可能确定收益的。然而,对于进行多次的对策来说,应该知道每个策略被采用的概率;所以,可利用这个资料来计算对策的期望收益。,7.3.3 矩阵对策的混合策略,对于例7.4,如果局中人以50%的机会选择第一行和第二行,而局中人分别以30%和70%的机会选择第一列和第二列,那么对策的期望收益就能计算出来。例

23、如,第一行第一列的策略是以(0.5)(0.3) 0.15的机会被选择,而这种策略有1元的收益,于是期望收益将是(1)(0.15) 0.15(元)。表7.1中的数据概括了所有这些情况。当这种策略被采用时,对策的期望收益就是2.5元。,7.3.3 矩阵对策的混合策略,表7.1 例7.4分析数据,7.3.3 矩阵对策的混合策略,仔细观察上述的推导过程,可得知如何确定一个没有鞍点对策的期望收益。一般而言,先估计选取各个策略可能性的大小来进行对策,也就是用多大概率选取各个纯策略,然后计算出期望收益。,7.3.3 矩阵对策的混合策略,对于例7.4来说,假定局中人以概率x1选取纯策略1,以概率x2选取纯策略

24、2,其中x1+x2=1;同样,局中人也可以制定一个混合策略,即以概率y1选取纯策略1,以概率y2选取纯策略2,其中y1+ y2=1。这时,对局中人来说,其收益期望为,7.3.3 矩阵对策的混合策略,7.3.3 矩阵对策的混合策略,由上式可见,当 时, ,就是说当局人以概率 选取纯策略1时,其期望收益至少是 。但并不能保证他的期望值超过 ,这也是因为当局中人取 时,会控制局中人的收益不超过 ,因此 是局中人I收益的期望值。,7.3.3 矩阵对策的混合策略,同样局中人只有取 时,才能保证他的损失不会多于 。于是对例7.4来说,局中人以概率 选择1,以概率 选择2;局中人以概率 选择1,以概率 选择

25、2,这时双方都会得到满意的结果。从上述分析可以看出,每个局中人决策时,不是决定用哪一个纯策略,而是决定用多大概率选择每一个纯策略,以这样一种方式选取纯策略参加对策,是双方的最优策略。,7.3.3 矩阵对策的混合策略,将局中人选取1、2的概率,记成向量的形式,即,7.3.3 矩阵对策的混合策略,同样,对于局中人选取1、2的概率记成向量的形式,即,分别称为局中人和局中人的最优混合策略。,7.3.3 矩阵对策的混合策略,混合策略是指某一个局中人以一定的概率随机的采用各个策略,而原来(例7.1中)的策略就称为纯策略。在纯策略的对策中,一个策略一经采用后便在各局对策中总使用它。矩阵对策的纯策略可以视为是

26、给这个策略以概率1的混合策略。,7.3.3 矩阵对策的混合策略,下面进一步观察一个22矩阵,所确定的两人零和对策。,7.3.3 矩阵对策的混合策略,假定该矩阵的局中人以x1、x2的概率选取策略1、2,记成向量的形式,同样,局中人以y1、y2的概率选取策略1、2,记成向量的形式,7.3.3 矩阵对策的混合策略,这时局中人的收益期望为,可以证明局中人的最优策略是,7.3.3 矩阵对策的混合策略,其中,(7-1),这里,,同时满足条件x1+x2=1。,7.3.3 矩阵对策的混合策略,同样,局中人的最优策略是,其中,(7-2),这里,,,同时满足条件y1+y2=1。,7.3.3 矩阵对策的混合策略,相

27、应于这些最优策略的期望收益为,如果应用最优策略,那么对策的期望收益称为对策值V。,7.3.3 矩阵对策的混合策略,例7.5 设矩阵对策,局中人的收益矩阵为,试确定最优策略和对策值。,7.3.3 矩阵对策的混合策略,解 直接应用式(7-1)得,那么,局中人的最优策略是以 的概率选择第一行(策略1)和以 的概率选择第二行(策略2)。,7.3.3 矩阵对策的混合策略,同样,应用式(7-2),可以得到,那么,局中人的最优策略是以 的概率选择第一列(策略1)和以 的概率选择第二列(策略2)。,7.3.3 矩阵对策的混合策略,对策值V为,7.3.3 矩阵对策的混合策略,即局中人的最优策略为,局中人的最优策

28、略为,对策值为,7.3.3 矩阵对策的混合策略,一般情况下,在矩阵对策中,假设局中人的策略为:以概率 采用纯策略i,局中人以概率 采用纯策略j;则将选取纯策略集合对应的概率向量,分别称为局中人和局中人的混合策略。,7.3.3 矩阵对策的混合策略,这时,局中人的收益期望为,7.3.3 矩阵对策的混合策略,局中人仍按max min准则选取策略,即选择混合策略x (x1,x2, ,xn),使为 最大,即,7.4 求解矩阵对策的方法,7.4.1 图解法现在讨论矩阵对策的图解法,这种方法不仅为收益矩阵为2n和m2阶的对策问题提供一个直观的解法,而且通过这种方法的讨论可以使我们在几何上理解对策论的思想。,

29、7.4 求解矩阵对策的方法,下面利用例子来说明如何求出最优的策略。例7.6 设有对策矩阵,其中矩阵中的元素表示局中人的得分,即,试求出每个局中人的最优策略,并问其对策值是多少?,7.4 求解矩阵对策的方法,解 我们知道,在上面对策中,局中人有2种策略,局中人有3种策略。假定p是局中人选取第一行的概率,那么1p是他选取第二行的概率。下面依据p来计算局中人的期望收益值。,7.4 求解矩阵对策的方法,如果局中人选择第一列,那么局中人的期望收益值等于4p 1(1p),即 E15p1 (图7.1中直线)类似地,若局中人选择第二列和第三列,则局中人的期望收益值分别为 E1 4 5p (图7.1中直线)E1

30、 2 2p (图7.1中直线),7.4 求解矩阵对策的方法,另外,我们以E1为y轴,p为x轴,做出直线、直线和直线。以局中人的角度来看,他希望局中人得分尽可能地少,因为这样能使自己得分尽可能地多。因此,局中人将选择这样的策略(直线)使其高度最低,由于每条直线的高度表示局中人的得分多少。换言之,局中人的最优策路即是图7.1中粗黑的折线。,7.4 求解矩阵对策的方法,局中人认识到这一点,就将选择p的值,使自己能获得最多的分数。这样的p值出现在直线和直线的交点A处,交点坐标为,7.4 求解矩阵对策的方法,于是局中人的最优策略是以 的概率选择第一行和以 的概率选择第二行。在这种情况下,这个对策的值是

31、。为求出局中人的最优策略,要注意局中人的最优策略是根据对策矩阵的第一列和第三列所计算出的得分数而得到的,在例7.6的矩阵中删去第二列所构成的矩阵为,7.4 求解矩阵对策的方法,E1,A,p,4 3 2 1 0,0.1 0.2 0.3 0.4 0.50.6 0.7 0.8 0.9 1.0,图7.1 例7.6最优策略选择示意图,7.4 求解矩阵对策的方法,现在,由式(7-2)可求出局中人的最优策略为,于是局中人的最优策略是以 的概率选择第一列,以 的概率选择第三列;而始终不选择第二列(即被删去的列)。,7.4 求解矩阵对策的方法,例7.7 给定下列对策矩阵,其中矩阵中的元素表示局中人的得分,试求出

32、每个局中人的最优策略,并问其对策值是多少?,7.4 求解矩阵对策的方法,解 这里,局中人有两种策略,令q为他选择第一列的概率,而1q便是他选择第二列的概率;因此,局中人的期望得分E1分别为 E1 2q 2(1q),E1 q (1q), E1 2q,E1 3q (1q),E1 4q 2(1q),,7.4 求解矩阵对策的方法,化简得 E1 4q 2(图7.2中直线),E1 2q 1(图7.2中直线) E1 2q(图7.2中直线),E1 4q 1(图7.2中直线) E1 6q2(图7.2中直线), 然后,做出这5个方程的直线图,如图7.2所示。,7.4 求解矩阵对策的方法,图7.2 例7.6最优策略

33、选择示意图,E1,q,4 3 2 1 0,0.1 0.20.30.4 0.5 0.60.70.8 0.91.0,7.4 求解矩阵对策的方法,局中人可以选择图7.2中直线所代表的5种策略中的任何一种。由于每一条直线的高度表示了他的得分数,于是他将选择图7.2中粗黑折线所表示的策略。,7.4 求解矩阵对策的方法,但是,局中人希望使局中人的得分尽可能少。这出现在直线和直线的交点处,其交点坐标为 。因此,局中人的最优策略是以 的概率选择第一列,以 的概率选择第二列,其对策值是 。,7.4 求解矩阵对策的方法,下面求局中人的最优策略。由于局中人的最优策略产生于直线和直线,所以在例7.7的矩阵中删去第二、

34、四、五、六行,得到矩阵,应用式(7-2),局中人的最优策略为,7.4.2 线性规划法,前面讨论了图解法,解决了收益矩阵为2n和m2阶的对策问题的求解。对于一般的矩阵对策问题,可以用线性规划法来进行求解,因为这种方法可以求解任意矩阵对策。,7.4.2 线性规划法,若一个矩阵对策中,局中人的收益矩阵为A,则他的最优混合策略x (x1, x2, , xn)是线性规划问题,7.4.2 线性规划法,的解;而局中人的最优策略y (y1,y2, ,yn)是问题,7.4.2 线性规划法,的解。容易验证问题(P)和问题(D)是互为对偶的线性规划问题。这样求解矩阵对策可等价地转化为求解互为对偶的线性规划问题(P)

35、和(D)。,7.4.2 线性规划法,在问题(P)中,令,(不妨设wo) (7-3),则问题(P)的约束条件变为,7.4.2 线性规划法,故问题(P)等价于线性规划问题(P):,同理,令,(7-4),7.4.2 线性规划法,可知问题(D)等价于线性规划问题(D),显然,问题(P)和(D)是互为对偶的线性规划,可利用单纯形或对偶单纯形方法求解。求解后,再通过式(7-3)和式(7-4)进行变换,即可得到原对策问题的解和对策值。,7.4.2 线性规划法,例7.8 利用线性规划方法求解下述矩阵对策,其收益矩阵为,7.4.2 线性规划法,解 上述问题可化成两个互为对偶的线性规划问题,即,7.4.2 线性规

36、划法,上述线性规划的解为,7.4.2 线性规划法,故对策问题的解为,7.5 对策模型应用案例,例7.9 两个竞争对手A公司和B公司,都计划在某一个城市增加产品的销售点,地点可选择安排在城市中心或城市郊区。如果两个对手都决定在城市中心建销售点,那么每年A公司产品的利润要比B公司产品的利润多1 000元;如果两个公司都决定在城市郊区建销售点,那么A公司产品的利润要比B公司产品的利润少2 000元;如果A公司安排在城市郊区,而B公司安排在城市中心,那么A公司的利润要比B公司的利润多4 000元;如果A公司安排在城市中心,而B公司安排在城市郊区,那么A公司的利润要比B公司的利润少3 000元。试问各公

37、司安排销售点的最好位置是哪里?,7.5 对策模型应用案例,解 最好位置的含义是使双方都能发挥最大的能力,而不是使总销售额达到最高。当然,所谓“最好”在这里也是相对的。另外对位置的选择可以有不同的解释。,7.5 对策模型应用案例,如果规定行作为A公司的策略,列作为B公司的策略,并且用正值表示A公司超过B公司的利润,用负值表示B公司超过A公司的利润,那么其对策矩阵为,其中每个元素都以千元为单位的。,7.5 对策模型应用案例,很容易知道,这个对策是有鞍点的,鞍点是2,对策值也是2。因此,当两个公司都按排在城市郊区时,就会达到最好的竞争状态。这是由于B公司总应选择郊区,才能比A公司利润多。而在这种情况

38、下,A公司为了使B公司的利润降到最低,它也必须选择在郊区。当然,这种对策是不公平的,因为它只对B公司有利。,7.5 对策模型应用案例,例7.10 在海上战役中,轰炸机编队企图攻击有航空母舰(装有战斗机)护航的舰队。轰炸机或从高空攻击,或从低空攻击,但从低空攻击更为准确。同样,地航空母舰能派遣出战斗机在高空或低空搜索轰炸机。如果轰炸机能避开战斗机,那么轰炸机就能赢得8个基数(表示力量对比单位);如果两机相遇,则轰炸机要损失2个基数。但当两机在低空相遇时,轰炸机还要增加3个基数的赢得(因为它轰炸得准确)。分别求出轰炸机和战斗机的最优策略,并问对策值是多少?,7.5 对策模型应用案例,解 首先建立对

39、策矩阵。假定轰炸机出行策略,战斗机出列策略。矩阵的每个元素表示轰炸机的赢得基数。那么,对策矩阵为,7.5 对策模型应用案例,其中第一行第一列的元素1是由于两机相遇时轰炸机要损失2个基数,而低空轰炸,轰炸机要多增加3基数的赢得,故它的总赢得为1个基数。,7.5 对策模型应用案例,下面应用式(7-1)和式(7-2),求得轰炸机和战斗机的最优策略分别为,7.5 对策模型应用案例,相对于这些最优策略的期望收益为,因此,如果两个局中人都采用他们的最优策略时,那么对策有利于轰炸机。,7.5 对策模型应用案例,轰炸机可以用抛掷一枚匀称硬币的方法来决定飞高空还是飞低空(例如,正面为飞高空,反面为飞低空)。而战

40、斗机则用摸球的方法来决定飞高空还是飞低空(例如,将13个黑球,7个白球放入缸中,每天任意地抽取一个球,并且放回)。如果是黑球,战斗机将低飞;如果是白球,战斗机就高飞。,7.5 对策模型应用案例,例7.11 (简化的投资问题)有一个投资者,计划在国际局势动荡期间,即和平、继续冷战、还是真正的热战都不定的局势下,投资一万美元,其投资的形式可以是军用股票、工业股票。这种对策是投资者与国际局势之间的斗争,下面的矩阵给出了每个局中人的策略的利率。,7.5 对策模型应用案例,试计算投资者的最优策略。,7.5 对策模型应用案例,解 这是一个23矩阵,可用图解方法解决。投资者的最优策略为,对策值为,7.5 对策模型应用案例,于是,当投资者将 的投资用于军用股票, 的投资用于工业股票,则他一定能获得至少6.7%的利息。事实上,在热战情况下的利息为,7.5 对策模型应用案例,在冷战情况下的利息为,在和平时期的利息为,本章小结,通过实际例子阐述了组成对策模型的基本要素及其各要素的含义,介绍了两人零和有限对策在研究对策模型中的地位和意义;介绍了矩阵对策的求解方法。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 通信信息 > 电子电气自动化

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报