1、,对策与决策模型,对策与决策模型,对策与决策是人们生活和工作中经常会遇到的择优活动。人们在处理一个问题时,往往会面临几种情况,同时又存在几种可行方案可供选择,要求根据自己的行动目的选定一种方案,以期获得最佳的结果。有时,人们面临的问题具有竞争性质,如商业上的竞争、体育中的比赛和军事行动、政治派别的斗争等等。这时竞争双方或各方都要发挥自己的优势,使己方获得最好结果。因而双方或各方都要根据不同情况、不同对手做出自己的决择,此时的决策称为对策。在有些情况下,如果我们把可能出现的若干种情况也看作是竞争对手可采取的几种策略,那么也可以把决策问题当作对策问题来求解。,对策问题,对策问题的特征是参与者为利益
2、相互冲突的各方,其结局不取决于其中任意一方的努力而是各方所采取的策略的综合结果。,先考察几个实际例子。,例1 (田忌赛马),田忌赛马是大多数人都熟知的故事,传说战国时期齐王欲与大将田忌赛马,双方约定每人挑选上、中、下三个等级的马各一匹进行比赛,每局赌金为一千金。齐王同等级的马均比田忌的马略胜一筹,似乎必胜无疑。田忌的朋友孙膑给他出了一个主意,让他用下等马比齐王的上等马,上等马对齐王的中等马,中等马对齐王的下等马,结果田忌二胜一败,反而赢了一千金。,例2 (石头剪子布),这是一个大多数人小时候都玩过的游戏。游戏双方只能选石头、剪子、布中的一种,石头赢剪子,剪子赢布,而布又赢石头,赢者得一分,输者
3、失一分,双方相同时不得分,见下表。,表1,例3 (囚犯的困惑),警察同时逮捕了两人并分开关押,逮捕的原因是他们持有大量伪币,警方怀疑他们伪造钱币,但没有找到充分证据,希望他们能自己供认,这两个人都知道:如果他们双方都不供认,将被以使用和持有大量伪币罪被各判刑18个月;如果双方都供认伪造了钱币,将各被判刑3年;如果一方供认另一方不供认,则供认方将被从宽处理而免刑,但另一方面将被判刑7年。将嫌疑犯A、B被判刑的几种可能情况列表如下:,表2,表中每对数字表示嫌疑犯A、B被判刑的年数。如果两名疑犯均担心对方供认并希望受到最轻的惩罚,最保险的办法自然是承认制造了伪币。,一、对策的基本要素,(1)局中人。
4、参加决策的各方被称为决策问题的局中人,一个决策总是可以包含两名局中人(如棋类比赛、人与大自然作斗争等),也可以包含多于两名局中人(如大多数商业中的竞争、政治派别间的斗争)。局中人必须要拥用可供其选择并影响最终结局的策略,在例3中,局中人是A、B两名疑犯,警方不是局中人。两名疑犯最终如何判刑取决于他们各自采取的态度,警方不能为他们做出选择。,从这些简单实例中可以看出对策现象中包含的几个基本要素。,(2)策略集合。局中人能采取的可行方案称为策略,每一局中人可采取的全部策略称为此局中人的策略集合。对策问题中,对应于每一局中人存在着一个策略集合,而每一策略集合中至少要有两个策略,否则该局中人可从此对策
5、问题中删去,因为对他来讲,不存在选择策略的余地。应当注意的是,所谓策略是指在整个竞争过程中对付他方的完整方法,并非指竞争过程中某步所采取的具体局部办法。例如下棋中的某步只能看作一个完整策略的组成部分,而不能看成一个完整的策略。当然,有时可将它看成一个多阶段对策中的子对策。策略集合可以是有限集也可以是无限集。策略集为有限集时称为有限对策,否则称为无限对策。,记局中人i的策略集合为Si。当对策问题各方都从各自的策略集合中选定了一个策略后,各方采取的策略全体可用一矢量S表示,称之为一个纯局势(简称局势)。,例如,若一对策中包含A、B两名局中人,其策略集合分别为SA = 1, m,SB = 1, n。
6、若A选择策略 i而B选策略 j,则( i, j)就构成此对策的一个纯局势。显然,SA与SB一共可构成mn个纯局势,它们构成表。对策问题的全体纯局势构成的集合S称为此对策问题的局势集合。,(3)赢得函数(或称支付函数)。对策的结果用矢量表示,称之为赢得函数。赢得函数F为定义在局势集合S上的矢值函数,对于S中的每一纯局势S,F(S)指出了每一局中人在此对策结果下应赢得(或支付)的值。综上所述,一个对策模型由局中人、策略集合和赢得函数三部分组成。记局中人集合为I = 1,k,对每一iI,有一策略集合Si,当I中每一局中人i选定策略后得一个局势s;将s代入赢得函数F,即得一矢量F(s) = ( F1(
7、s),Fk(s),其中Fi(s)为在局势s下局中人i的赢得(或支付)。,只讨论两名局中人的对策问题,即两人对策,其结果可以推广到一般的对策模型中去。对于只有两名局中人的对策问题,其局势集合和赢得函数均可用表格表示。,零和对策,存在一类特殊的对策问题。在这类对策中,当纯局势确定后,A之所得恰为B之所失,或者A之所失恰为B之所得,即双方所得之和总为零。在零和对策中,因F1(s)= F2(s),只需指出其中一人的赢得值即可,故赢得函数可用赢得矩阵表示。例如若A有m种策略,B有n种策略,赢得矩阵,表示若A选取策略i而B选取策略 j,则A之所得为aij(当aij0时为支付)。,在有些两人对策的赢得表中,
8、A之所得并非明显为B之所失,但双方赢得数之和为一常数。例如在表4中,无论A、B怎样选取策略,双方赢得总和均为10,此时,若将各人赢得数减去两人的平均赢得数,即可将赢得表化为零和赢得表。,表4,给定一个两人对策只需给出局中人A、B的策略集合SA、SB及表示双方赢得值的赢得矩阵R。综上所述,当遇到零和对策或可转化为零和对策的问题时,R可用通常意义下的矩阵表示,否则R的元素为一两维矢量。,故两人对策G又可称为矩阵对策并可简记成 G = SA, SB, R ,例4 给定G = SA, SB, R,其中SA = 1, 2, 3,SB = 1, 2, 3, 4,从R 中可以看出,若A希望获得最大赢利30,
9、需采取策略 1,但此时若B取策略 4,A非但得不到30,反而会失去22。为了稳妥,双方都应考虑到对方有使自己损失最大的动机,在最坏的可能中争取最好的结果。局中人A采取策略 1、 2、 3时,最坏的赢得结果分别为,min 12, 6, 30, 22 = 22,min 14, 2, 18, 10 =2,min 6, 0, 10, 16 = 10,其中最好的可能为max22,2,10=2。如果A采取策略 2,无论B采取什么策略,A的赢得均不会少于2.,B采取各方案的最大损失为max 12,14, 6=14,max 6,2,0=2,max 30,18, 10=30和max 22,10,16 =16。当
10、B采取策略 2时,其损失不会超过2。注意到在赢得矩阵中,2既是所在行中的最小元素又是所在列中的最大元素。此时,只要对方不改变策略,任一局中人都不可能通过变换策略来增大赢得或减小损失,称这样的局势为对策的一个稳定点或稳定解,(注:也被称为鞍点),定义1 对于两人对策G = SA, SB, R,若有,则称G具有稳定解,并称VG为对策G的值。若纯局势( )使得,则称( )为对策G的鞍点或稳定解,赢得矩阵中与( )相对应的元素 称为赢得矩阵的鞍点, 与 分别称为局中人A与B的最优策略。,设A方用概率xi选用策略 i,B方用概率yj选用策略 j, ,且双方每次选用什么策略是随机的,不能让对方看出规律,,
11、分别称SA与SB为A方和B方的混合策略。,注:,例5 A有两架飞机,B有四个导弹连分别掩护通向目标的四条线路。如 飞机沿一条路线进攻,则掩护该线路的导弹连必击落一架飞机,不过 由于重装导弹时间很长,所以仅仅能击落一架飞机;如飞机突防进而摧毁目标,A的赢得为1;否则A的赢得为0。现在需要为A、B双方选择最优策略。,解:双方可选择的策略集分别为,A的策略为,B的策略为,:飞机从不同的路线进入。,:飞机从同一条路线进入。,:对每一条路线配备一个连。,:对两条路线各配置两个连。,:对一条路线配两个连,为另条路线各配一个连。,:对一条线路配三个连,对另一条路线配一个连。,:对一条路线配四个连。,由题意得
12、A的赢得矩阵为,易求得,可知,不存在纯策略。,若A的最佳策略为(x,1-x)( x是A选择 的概率。),对于 A的赢得是,对于 A的赢得是,对于 A的赢得是,则A的至少赢得为,则,解得,例 某工程按正常速度施工时,若无坏天气影响可确保在30天内按期完工。但根据天气预报,15天后天气肯定变坏。有40%的可能会出现阴雨天气而不影响工期,在50%的可能会遇到小风暴而使工期推迟15天,另有10%的可能会遇到大风暴而使工期推迟20天。对于可能出现的情况,考虑两种方案:,(1)提前紧急加班,在15天内完成工程,实施此方案需增加开支18000元。,(2)先按正常速度施工,15天后根据实际出现的天气状况再作决
13、策。,如遇到阴雨天气,则维持正常速度,不必支付额外费用。,如遇到小风暴,有两个备选方案:(i)维持正常速度施工,支付工程延期损失费20000元。(ii)采取应急措施。实施此应急措施有三种可能结果:有50%可能减少误工期1天,支付应急费用和延期损失费共24000元;有30%可能减少误工期2天,支付应急费用和延期损失费共18000元;有20%可能减少误工期3天,支付应急费用和延期损失费共12000元。,风险型决策问题,如遇大风暴,也有两个方案可供选择:(i)维持正常速度施工,支付工程延期损失费50000元。(ii)采取应急措施。实施此应急措施也有三种可能结果:有70%可能减少误工期2天,支付应急费
14、及误工费共54000元;有20%可能减少误工期3天,支付应急费及误工费共46000元;有10%可能减少误工期4天,支付应急费和误工费共38000元。,根据上述情况,试作出最佳决策使支付的额外费用最少。,解:由于未来的天气状态未知,但各种天气状况出现的概率已知,本例是一个风险型决策问题,所谓的额外费用应理解为期望值。,本例要求作多次决策,工程初期应决定是按正常速度施工还是提前紧急加班。如按正常速度施工,则15天后还需根据天气状况再作一次决策,以决定是否采取应急措施,故本例为多阶段(两阶段)决策问题。为便于分析和决策,采用决策树方法。,根据题意,作决策树如图。,图中,表示决策点,从它分出的分枝称为
15、方案分枝,分枝的数目就是方案的个数。表示机会节点,从它分出的分枝称为概率分枝,一条概率分枝对应一条自然状态并标有相应的发生概率。称为未梢节点,右边的数字表示相应的收益值或损失值。,在决策树上由右向左计算各机会节点处的期望值,并将结果标在节点旁。遇到决策点则比较各方案分枝的效益期望值以决定方案的优劣,并且用双线划去淘汰掉的方案分枝,在决策点旁标上最佳方案的效益期望值,计算步骤如下:,(1)在机会节点E、F处计算它们的效益期望值,E(E) = 0.5(24000)0.3(18000)0.2(12000)=19800 E(F) = 0.7(54000)0.2(46000)0.1(38000)=508
16、00,(2)在第一级决策点C、D处进行比较,在C点处划去正常速度分枝,在D处划去应急分枝。,(3)计算第二级机会节点B处的效益期望值,E(B) = 0.400.5(19800)0.1(50000)=14900,并将14900标在B点旁。,(4)在第二级决策点A处进行方案比较,划去提前紧急加班,将14900标在A点旁。,结论 最佳决策为前15天按正常速度施工,15天后按实际出现的天气状况再作决定。如出现阴雨天气,仍维持正常速度施工;如出现小风暴,则采取应急措施;如出现大风暴,也按正常速度施工,整个方案总损失的期望值为14900元。,根据期望值大小决策是随机型决策问题最常用的办法之一。实际应用时应根据具体情况作出分析,选取期望收益最大或期望损失最小的方案。,