收藏 分享(赏)

数学模型动态规划.doc

上传人:weiwoduzun 文档编号:2588768 上传时间:2018-09-22 格式:DOC 页数:21 大小:717.50KB
下载 相关 举报
数学模型动态规划.doc_第1页
第1页 / 共21页
数学模型动态规划.doc_第2页
第2页 / 共21页
数学模型动态规划.doc_第3页
第3页 / 共21页
数学模型动态规划.doc_第4页
第4页 / 共21页
数学模型动态规划.doc_第5页
第5页 / 共21页
点击查看更多>>
资源描述

1、1动态规划动态规划(dynamic programming)是运筹学的一个重要分支,它是解决多阶段决策问题的一种有效的数量化方法动态规划是由美国学者贝尔曼(RBellman)等人所创立的1951 年贝尔曼首先提出了动态规划中解决多阶段决策问题的最优化原理,并给出了许多实际问题的解法1957 年贝尔曼发表了动态规划一书,标志着运筹学这一重要分支的诞生1 动态规划的概念与原理一、动态规划的基本概念引例: 最短路线问题美国黑金石油公司( The Black Gold Petroleum Company)最近在阿拉斯加( Alaska)的北斯洛波( North Slope)发现了大的石油储量。为了大规

2、模开发这一油田,首先必须建立相应的输运网络,使北斯洛波生产的原油能运至美国的 3 个装运港之一。在油田的集输站(结点 C)与装运港(结点P1、 P2、 P3)之间需要若干个中间站,中间站之间的联通情况如图 1 所示,图中线段上的数字代表两站之间的距离(单位:10 千米) 。试确定一最佳的输运线路,使原油的输送距离最短。解:最短路线有一个重要性质,即如果由起点 A 经过 B 点和 C 点到达终点 D 是一条最短路线,则由 B 点经 C 点到达终点 D 一定是 B 到 D 的最短路(贝尔曼最优化原理) 。此性质用反证法很容易证明,因为如果不是这样,则从 B 点到 D 点有另一条距离更短的路线存在,

3、不妨假设为 BPD;从而可知路线 ABPD 比原路线 ABCD 距离短,这与原路线 ABCD 是最短路线相矛盾,性质得证。根据最短路线的这一性质,寻找最短路线的方法就是从最后阶段开始,由后向前逐步递推求出各点到终点的最短路线,最后求得由始点到终点的最短路;即动态规划的方法是从终点逐段向始点方向寻找最短路线的一种方法。按照动态规划的方法,将此过程划分为 4 个阶段,即阶段变量 ;取4,321k过程在各阶段所处的位置为状态变量 ,按逆序算法求解。kx2当 时:4k由结点 M31到达目的地有两条路线可以选择,即选择 P1或 P2;故:选择 P268min)(314xf由结点 M32到达目的地有三条路

4、线可以选择,即选择 P1、 P2或 P3;故:选择 P2374i)(324xf由结点 M33到达目的地也有三条路线可以选择,即选择 P1、 P2或 P3;故:选择 P356min)(34xf由结点 M34到达目的地有两条路线可以选择,即选择 P2或 P3;故:选择 P24i)(344xf当 时:3k由结点 M21到达下一阶段有三条路线可以选择,即选择 M31、 M32或 M33;故:CP3P2P1M11M12M21M22M23M31M32M33M3410128691110769751146864377 6534k=1 k=2 k=3 k=4图 13选择 M32105637min)(213 Mx

5、f由结点 M22到达下一阶段也有三条路线可以选择,即选择 M31、 M32或M33;故:选择 M32或 M33105379in)(23xf由结点 M23到达下一阶段也有三条路线可以选择,即选择 M32、 M33或M34;故:选择 M33或 M34936541min)(233 xf当 时:2k由结点 M11到达下一阶段有两条路线可以选择,即选择 M21或 M22;故:选择 M221068in)(12 xf由结点 M12到达下一阶段也有两条路线可以选择,即选择 M22或 M23;故:选择 M2219min)(122 xf当 时:1k由结点 C 到达下一阶段有两条路线可以选择,即选择 M11或 M1

6、2;故:选择 M11281906in)(1xf从而通过顺序(计算的反顺序)追踪(黑体标示)可以得到两条最佳的输运线路: CM11M22M32P2; CM11M22M33P3。最短的输送距离是280 千米。一个多阶段决策过程最优化问题的动态规划模型通常包含以下要素。1、阶段阶段是过程中需要做出决策的决策点。描述阶段的变量称为阶段变量,常用 k 来表示。阶段的划分一般是根据时间和空间的自然特征来进行的,但要便于将问题的过程转化为多阶段决策的过程。阶段变量一般用表示。n,242、状态状态(state)表示每个阶段开始时过程所处的自然状况。它应能描述过程的特征并且无后效性,即当某阶段的状态变量给定时,

7、这个阶段以后过程的演变与该阶段以前各阶段的状态无关。通常还要求状态是直接或间接可以观测的。描述状态的变量称状态变量(state variable) 。变量允许取值的范围称允许状态集合(set of admissible states)。用 表示第 阶段的状态变量,kx它可以是一个数或一个向量。用 表示第 阶段的允许状态集合。kD个阶段的决策过程有 个状态变量, 表示 演变的结果。n1n1nn根据过程演变的具体情况,状态变量可以是离散的或连续的。为了计算的方便有时将连续变量离散化;为了分析的方便有时又将离散变量视为连续的。状态变量简称为状态。3 决策当一个阶段的状态确定后,可以作出各种选择从而演

8、变到下一阶段的某个状态,这种选择手段称为决策(decision) ,在最优控制问题中也称为控制(control) 。描述决策的变量称决策变量(decision variable) ,变量允许取值的范围称允许决策集合(set of admissible decisions) 。用 表示第 阶段处)(kxu于状态 时的决策变量,它是 的函数,用 表示 的允许决策集合。kxkx)(kU决策变量简称决策。4 策略决策组成的序列称为策略(policy) 。由初始状态 开始的全过程的策1x略记作 ,即 .)(1xpn )(,)(,)(211 nn uxu由第 阶段的状态 开始到终止状态的后部子过程的策略记

9、作 ,即kk kxp, .,)(nnu,k类似地,由第 到第 阶段的子过程的策略记作 .j )(,)()(jkkjxp可供选择的策略有一定的范围,称为允许策略集合(set of admissible policies),用 表示。),(),1jknnPxP5. 状态转移方程在确定性过程中,一旦某阶段的状态和决策为已知,下阶段的状态便完全确定。用状态转移方程(equation of state transition)表示这种演变规律,写作.,21),(1 nkuxTkk (1)56. 指标函数和最优值函数指标函数(objective function)是衡量过程优劣的数量指标,它是定义在全过程和

10、所有后部子过程上的数量函数,用 表示,),(11nkknxuxV。指标函数应具有可分离性,即 可表为 的函数,记nk,21为 ),(,(),( 121111 nkknknkkn uxxuV 并且函数 对于变量 是严格单调的。kV过程在第 阶段的阶段指标取决于状态 和决策 ,用 表示。指j jju,(jjuxv标函数由 组成,常见的形式有:),2(vj阶段指标之和,即 ,nkjjkknxux),(),(11阶段指标之积,即 ,kjjjnkk uxvV,阶段指标之极大(或极小) ,即.),(mi)ax),(11 jjnjknkknxu这些形式下第 到第 阶段子过程的指标函数为 。j ),1jkkj

11、 xuV根据状态转移方程指标函数 还可以表示为状态 和策略 的函数,即knVnp。在 给定时指标函数 对 的最优值称为最优值函数),(knkpxVkxknp(optimal value function) ,记为 ,即)(xf,,ot)()(knkPpkfkn其中 可根据具体情况取 或 。optmai7 最优策略和最优轨线使指标函数 达到最优值的策略是从 开始的后部子过程的最优策略,knV记作 。 是全过程的最优策略,简称最优策略(optimal ,*knu1policy) 。从初始状态 出发,过程按照 和状态转移方程演变所经)(*x*1np历的状态序列 称最优轨线(optimal traje

12、ctory) 。,1*21nx二、基本方程:对于 阶段的动态规划问题,在求子过程上的最优指标函数时, 子过n k程与 子过程有如下递推关系:k(2) cxf nkxfuxvn kkuUk)( 1,),(),(opt1 1)( 在上述方程中,当 为加法时取 ;当 为乘法时,取0)(1knf6。1)(1knxf三、最优化原理动态规划的最优化原理是美国学者 RBellman 首先提出的,其表述如下:“作为整个过程的最优策略应具有这样的性质,无论过去的状态和决策如何,对于前面的决策所形成的状态而言,余下的诸决策必须构成最优策略” 也就是说最优策略的任一子策略都是最优的最优化原理还阐述这样一个事实,对全

13、过程的任一状态点 ,我们不考kx虑 以前的决策,只保证 以后的决策是最优的。显然,由于 k 的任意性kxkx(k =1,2,n)就保证了全过程的决策是最优的最优化原理为动态规划从最后阶段的优化开始,逐步向前一阶段优化扩展直至第一阶段,从而达到全程优化的方法奠定了理论基础2 动态规划模型的建立与求解根据动态规划的概念不难看出,在用动态规划方法解决实际问题时,必须首先明确本问题中的阶段、状态、决策、策略以及考察指标,并建立状态转移方程,然后根据 k 阶段最优指标的大小找出与之对应的最优子策略,直至找出问题的最优解我们把找出实际问题中的阶段、状态、决策、策略以及考察指标,并建立状态转移方程这一过程称

14、为建立动态规划模型应该说建立动态规划模型是解决动态规划问题的第一步,也是非常重要的一步模型建立的是否简捷、准确,直接关系到问题最优解的筛选及准确性,因此,建立动态规划模型是十分重要的其步骤可归纳如下:(1)将所要解决的问题恰当地划分为若干阶段,经常是按事物发展的时间和空间来划分不同阶段,各阶段的首尾要互相衔接;(2)正确地选择状态变量 ,确定它在每一阶段的取值范围;这一步是形kx成动态模型的关键,状态变量 是动态规划模型中最重要的参数。一般来说,状态变量 应该具有以下三个特征:kx要能够用来描述决策过程的演变特征;满足无后效性,即若某阶段状态已经给定后,则以后过程的进展不受以前各个状态的影响,

15、也就是说,过去的历史只通过当前的状态去影响未来的发展;递推性,即由 k 阶段的状态变量 及决策变量 可以计算出 阶段的kxku1k状态变量 1kx(3)选择决策变量 ,确定允许决策集合 。ku)(kD(4)正确写出状态转移方程 .,21,(1 nuxTkk 7(5)建立指标函数,一般用 描述阶段效应, 表示从 阶段),(kuxr )(kxfn的最优子策略函数.(6)建立动态规划基本方程。对每一对 , 计算不同指标值k)(k把这些指标值进行比较取出最优的一个,所谓最)()(,1kkkfxur优是根据实际问题的需要确定指标值的最大者或最小者,即 1,)( )()(1 1)(nkcxf xfuxro

16、ptn kkuDkk在动态规划基本方程中, ,都是已知函数,最优子策略 与.,2),(1kuxTkk )(kxf之间是递推关系,要求出 及 需要先求出 ,这f )(kxf)(ku1k就决定了用在动态规划基本方程求最优策略是逆着阶段的顺序进行的,由 k = n , n 1, 2,1 将上式依次逐步递推,直至全过程的优化结束,即可求出动态规划问题的最优策略及最优指标值称为动态规划的逆序算法。第三节 动态规划方法应用一、机器负荷分配问题例 1:某厂新购某种机床 125 台,据估计,这种设备 5 年后将被其他设备所代替,此机床如在高负荷状态下工作,年损坏率为 ,年利润为 10 万元;21如在低负荷状态

17、下工作,年损坏率为 ,年利润为 6 万元;问应该如何安1排这些机床的生产负荷,才能使 5 年内获得最大的利润?解:以年为阶段,k =1,2,3,4,5取 k 年初完好的机床数为状态变量 ,kx以 k 年初投入高负荷运行的机床数为决策变量 ,则低负荷运行的机床ku数为 ,于是状态转移方程为:uxkkkkk xux3.08.)(5421以利润为目标函数,则 k 年利润为: kku660记 表示从 年至 5 年末的最大总利润。则动态规划基本方程为:)(kxf 1,450)(,23.8. )(4ma61 10kxfuxfkkk kx下面具体求解8注意到动态规划基本方程 )3.08.(64max)( 1

18、0 kkkkuk uxffk所以 时5k 55650 )(4ax)(5ffu 当 时4 4440 4454015max)3.08.(164 xuuuxffxu 当 时3k018185.0max)3.0.(6)( 3330343033 uxuuffuxu当 时2k04.204.20.1max)3.8(60)( 2220322 uxuuffuxu当 时1k 0)(2790153.23max).08(426.)( 1110 111011 uxuuffuxu一即第一年到第 5 年末的最大利润为 。125,3.21x一在按与计算过程相反的顺序推回去,可得最优计划为9年份k完好机床数 kkkux3.08.

19、1高负荷机床数 ku低负荷机床数 kux第一年 125 0 125第二年 100 0 100第三年 80 0 80第四年 64 64 0第五年 32 32 0即前三年全部低负荷运转,后两年全部高负荷运转,最大利润为 2790 万元。二、资源分配问题所谓资源分配问题,就是将一定数量的一种或若干种资源(如原材料、机器设备、资金、劳动力等)恰当地分配给若干个使用者,以使资源得到最有效地利用。1、一维分配问题设有某种资源可用于 项活动,假设资源的数量为 ,已知用于第 项活nai动的资源数为 时,可以得到的收益为 ,试确定资源的ix ),21()nixgi分配方案使收益最大?该问题的数学模型可以表示为

20、0,. )()()(ma212nnnxatsgZ 当 为线性函数时,该问题是线性规划问题,当,()ixgi10为非线性函数时,该问题是非线性规划问题,如果采用),21()nixgi非线性规划求解,比较麻烦。可以将它看成多阶段决策问题,利用动态规划求解。在应用动态规划方法处理这一 类问题时,提出将资源分配给每项活动的过程看成一个阶段,每个阶段都要确定对一种活动的资源投放量,这时,状态变量 可以选择 阶段初所拥有的资源量,即 是要在第 项到第 项活kx kxn动间分配的资源量。决策变量 选择对活动 的资源投放量,决策变量 的允许集合为kukku。k0在选取上述状态变量和决策变量的情况下,状态转移方

21、程为: kkx1去投放资源时的收益为指标函数,则 为阶段效益指标。)(kug记 表示从 阶段至 阶段的最大总利润。则动态规划基本方程为:)(kf n1,0)( (max1kf xfn ku一例 2:某公司拟将 500 万元的资本投入所属的甲、乙、丙三个工厂进行技术改造,各工厂获得投资后年利润将有相应的增长,增长额如表 1 所示。试确定 500 万元资本的分配方案,以使公司总的年利润增长额最大。表 1投资额 100 万元 200 万元 300 万元 400 万元 500 万元甲 30 70 90 120 130乙 50 100 110 110 110丙 40 60 110 120 120解:将问

22、题按工厂分为三个阶段 ,设状态变量 ( )代3,21kkx3,21表从第 个工厂到第 3 个工厂的投资额,决策变量 代表第 个工厂的投资k ku额。于是有状态转移方程为 、允许决策集合k1和递推关系式:0|)(kkkxuuD11)()(max)(10 kkkuk uxfgfk )1,23(4当 时:3 )(ma0)()( 3303 33 gf xuxu于是有表 2,表中 表示第三个阶段的最优决策。表 2 (单位:百万元)3x0 1 2 3 4 5u0 1 2 3 4 5)(3f0 0.4 0.6 1.1 1.2 1.2当 时:2k )()max)( 232022 uxfgfu于是有表 3。表

23、3 (单位:百万元))()232xfgu2x2 0 1 2 3 4 5)(2xfu0 0+0 0 01 0+0.4 0.5+0 0.5 12 0+0.6 0.5+0.4 1.0+0 1.0 23 0+1.1 0.5+0.6 1.0+0.4 1.1+0 1.4 24 0+1.2 0.5+1.1 1.0+0.6 1.1+0.4 1.1+0 1.6 1,25 0+1.2 0.5+1.2 1.0+1.1 1.1+0.6 1.1+0.4 1.1+0 2.1 2当 时:1k )()max)( 121011 uxfgfu于是有表 4。表 4)()121xfgu1x1 0 1 2 3 4 5)(1xfu5 0

24、+2.1 0.3+1.6 0.7+1.4 0.9+1.0 1.2+0.5 1.3+0 2.1 0,2然后按计算表格的顺序反推算,可知最优分配方案有两个:(1)甲工厂投资 200 万元,乙工厂投资 200 万元,丙工厂投资 100 万元;(2)甲工厂没有投资,乙工厂投资 200 万元,丙工厂投资 300 万元。按最优分配方案分配12投资(资源) ,年利润将增长 210 万元。这个例于是决策变量取离散值的一类分配问题,在实际问题中,相类似的问题还有销售店的布局(分配)问题、设备或人力资源的分配问题等。2、二维分配问题(1)设数量分别为 的两种资源分配给 个使用者,ba, nniiyxriiii ,

25、21),( 一一一求总收益最大的分配方案该问题的数学模型可以表示为 niyxbaxyrZiiniinii,21,0,),(m11(2)二维分配问题的解法1、逐次逼近法由于 niyxbaxyrZiiniinii,21,0,),(m11 设 0),( 10()(201) ininxaxxX一一一,)(一niybyriniiii,21,0),(ma10,)0(2)0(Y13 一一,)0(Yy一nixayxriniiii,21,0),(m10 ),(1()(21) nxX 一一,)1(x一niybyriniiii,21,0ma1)( ),(1()(21) nyY轮转若干步,直到满足精确度要求。2、拉格

26、郎日乘子法(1)估计一个拉格郎日乘子 0(2)用动态规划法解一维问题 niyxayxriini niii,21,0,),(m11若解不唯一,假设共有 个m)(,(,),(),(,( )2()1) myxy TnTn yxx )(,11(211121 (3)计算 jyFnijj ,)()(114mjyGnijj ,21)(max)(1(4)判断若存在 一一)(,(,., )1)( kknikyxbytsj若 )(一bF若 )(,一G若 )()( 1)(一byjnij三、存贮控制问题在动态规划模型中,以时期为阶段,取各时期初的库存量为状态变量;取各阶段的产量(或采购量)为决策变量,在确定决策变量时

27、一般要考虑需求量、生产能力、库存限制等因素;指标函数取生产或采购费用。例 3:某工厂要制定今后四个时期某产品的生产计划,估计今后四个时期内市场对该产品的需求如下表时期 k 1 2 3 4需求量 dk 2 3 2 4假设该厂生产每批产品的固定费用为 2 千元,若不生产为 0;每单位产品的成本为 1 千元;每件产品的每期保管费为 0.5 千元;每个时期最大生产能力所允许的生产批量不超过 5 个单位;最大库存量为 4 个单位;假设开始时库存量为 1 个单位,要求第四期末库存在 2 个单位。试问该厂应如何安排各个时期的产量,才能满足市场需求的条件下使总费用最小?解:按四个时期将问题分为四个阶段, k=

28、1,2,3,4取 k 期初库存量 为状态变量; k 期内产量 为决策变量,则状态转移kxku方程为kkdux1由题意,第 k 期内的费用为0,25.0,1.),(kkkk uxr记 表示第 期至第 4 期末的)(kf 最小总费用。则动态规划基本方程为:151,2340)( )(min5 1kxf xfuxrkkuk一下面求解当 时 注意:4kkkd14,32,5644 4uud4416)(0.min(i)( xuxfxfrf kkku kkkk 一 2)4(6245.0)( 35.337.2 5)1(.1)(44 uff当 时 注意: k,13一x kkdx165min5642,4 3,33

29、33uuxxdd一一一3)0(5.12.67.min)3(520.1i)0( 443 ufff2)1(1265.7.4min)4(521.03.)1(in)1( 343 ufff.2 093042if18当 时 注意: 2k4,3210一x kkdux175min,5 3,3,222 222xuuxdd一一 3)0(5.17.26.min)(0.140.i)0( 2332 ufff5)1(5.169725.1.4min)3(0.2)0(1.in)1( 232 ufff 4)2(169875.12.4min)4(.03522.)1(0.0min)2( 3uffff 034.333344当 时 注

30、意: 1k1x,0212udd 4)1(5.20147.653min)4(203)(0)( 221 uffff至此计算出本问题第一至四期的最小总费用为 20.5 千元。在按计算顺序反推回去,可以求出最优生产计划为20时期 k 1 2 3 4需求量 dk 2 3 2 4库存量 xk 1 3 0 1产量 uk 4 0 3 5四、设备更新问题1、只考虑更新与继续使用(不更新)两种情况。要考虑一种设备在 n 年内的更新问题在每年年初需作出决策,是继续使用还是更新令 一t一 一一trkk)(一tutkk 一一ttck)(一pRK以年为阶段,k =1,2,3,,n取第 k 年初设备的机龄为状态变量 ,决策

31、变量kxRKxuk一,01)(,于是状态转移方程为: 0,111 kkkk uxxu阶段指标函数, )()(: )(0)(kkkkkk xurKcpRpg记 表示从 年至 n 年末的最大总利润。则动态规划基本方程为:)(kxf211,23,0)( )()()(: 1(0max1 1 nkf xfurKfcpRn kkkk例:下表列出了某种设备的 5 年内各年的预测数据。求 5 年内各年的更新策略,如果开始时设备机龄为 1 年,使 5 年总收益最大?1 18 8 202 16 8 153 16 9 104 14 9 55 14 10 20 22 6 301 21 6 282 20 8 203 1

32、8 8 154 16 10 100 27 5 311 25 6 262 24 8 213 22 9 150 29 5 331 26 5 282 24 6 200 30 4 351 28 5 305 0 32 4 60 40新 购 费 p 旧 设 备 折 价 c(t)产 品 年 代 k-t 机 龄 t 收 入 r(t) 维 护 费 u(t)345050525255期 前 k-t=012解:以年为阶段,k =1,2,3,4,5由 1,2345,0)( )()()(: 1(0max6 1kf xfurKfcpRk kkkk=5 , 5,432,15 2323058:6max)()(: )()( 66

33、55 KRfurfcpf2218180624: 23max)3()(: )()2( 656555 KRfurfcpf 1313092: 75643ax)4()(: )()3( 65 65 KRfurfcpf 6601: 243max)()(: )()4(56555 furfcpf 4401: 3023ax)(5)(: )1()5(655KRfurfcpf第 5 年机龄为 15 年的设备均不更新k=4 , ,4 393918526: 2430max)()(: )1()( 5544 KRfurfcpf 29291384: 1550ax)()(: )()2(4444 KRfurfcpf 16168:

34、 9235430max)4()(: )()3(54 KRfurfcpf 9第 4 年机龄为 14 年的设备均不更新24k=3 , ,3213x48482965: 37max)()(: )1(0)(343 KRfurfcpf )2(3128160:ax)()(: )()2( 43333 一一furfcpf )3(21169:352max)4()3(: )()3( 4 一一KRfurfcpfk=2 , ,1246:3max)2(1)(: )1(0)( 3232KRfurfcpf )2(329:ax)3()(: )1(20)2(232 一一KRfurfcpfk=1 , ,1434381: 26056

35、2max)()(: )1()( 2111 KRfurfcpf因此,第 1 年不更新;第 2 年机龄为 2 年的更新;第 3 年机龄为 2 年、3 年的更新,第 4 年、第 5 年均不更新。252、考虑更新与继续使用(不更新)和大修三种情况。费用不仅取决于机龄和购置的年限, 取决于上次大修后的时间。令 ,21一一tt 一一一 ktrk 212,)(u, 一一一一 tttPk 2121,)( kM, 一一一 一10;ORK 一一nktttfk 2121,),(则动态规划基本方程为: 1,23, ,0),( ),1(),(),(),(: 0,0,:max,21 221121221 nktf tftMtutrOfKftPRtfn kkkk kkkkk

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 实用文档 > 工作计划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报