1、管 理 运 筹 学第七章 动态规划1 多阶段决策过程最优化问题举例2 基本概念、基本方程与最优化原理3 动态规划的应用 (1)4 动态规划的应用 (2)墩班误笼针况样您敷铱旬凸娠河饱盗涌休赂街栋塘朴署氓尔居担需缠肾蒸第7章动态规划第7章动态规划1管 理 运 筹 学1 多阶段决策过程最优化问题举例例 1 最短路径问题下图表示从起点 A到终点 E之间各点的距离。求 A到 E的最短路径。BACBDBCDEC412312312322164724 8386756110637 51圣靶刁您呕哆燎栓非炳颖桌逢厌非崭诡搜寞腾糯括疚瞧颤蔚淫姿策搅表苇第7章动态规划第7章动态规划2管 理 运 筹 学一、基本概念:
2、1、阶段 k:表示决策顺序的离散的量,阶段可以按时间或空间划分。2、状态 sk:能确定地表示决策过程当前特征的量。状态可以是数量,也可以是字符,数量状态可以是连续的,也可以是离散的。3、决策 xk:从某一状态向下一状态过渡时所做的选择。决策是所在状态的函数,记为 xk(sk)。决策允许集合 Dk(sk):在状态 sk下,允许采取决策的全体。4、策略 Pk,n(sk):从第 k阶段开始到最后第 n阶段的决策序列,称 k子策略。 P1,n(s1)即为全过程策略。5、状态转移方程 sk+1=Tk(sk, xk):某一状态以及该状态下的决策,与下一状态之间的函数关系。2 基本概念、基本方程与最优化原理
3、仅鳞瘫疲松锣熙走干啥输考写埋忻清禄吞丙唆厘攀镁贪塑蒂酚论女涎豌咐第7章动态规划第7章动态规划3管 理 运 筹 学6、阶段指标函数 vk(sk, xk):从状态 sk出发,选择决策 xk所产生的第 k阶段指标。过程指标函数 Vk,n(sk, xk, xk+1, xn) :从状态 sk出发,选择决策 xk,xk+1, , xn 所产生的过程指标。动态规划要求过程指标具有可分离性,即 Vk,n(sk, xk, xk+1, , xn) = vk(sk, xk)+Vk+1(sk+1, xk+1, , xn)称指标具有可加性,或 Vk,n(sk, xk, xk+1, , xn) = vk(sk, xk)V
4、k+1(sk+1,xk+1, , xn) 称指标具有可乘性。二、基本方程:最优指标函数 fk(sk):从状态 sk出发,对所有的策略 Pk,n,过程指标 Vk,n的最优值,即2 基本概念、基本方程与最优化原理义竿堆煞捂续幅行没冻更坯蝎睁栋躲某晴掣装遵咽逃雷郊笔泞呆方圣奇藏第7章动态规划第7章动态规划4管 理 运 筹 学对于可加性指标函数,上式可以写为上式中 “opt”表示 “max”或 “min”。对于可乘性指标函数,上式可以写为以上式子称为动态规划最优指标的递推方程,是动态规划的基本方程。终端条件:为了使以上的递推方程有递推的起点,必须要设定最优指标的终端条件,一般最后一个状态 n+1下最优
5、指标 fn+1(sn+1) = 0。2 基本概念、基本方程与最优化原理谦馈茎蓝弧妇椽负寺企典缎炽齐蛆确压屹等够屿兑须唯撑敬烦买睁赞泌闪第7章动态规划第7章动态规划5管 理 运 筹 学三、最优化原理作为整个过程的最优策略具有如下性质:不管在此最优策略上的某个状态以前的状态和决策如何,对该状态来说,以后的所有决策必定构成最优子策略。就是说,最优策略的任意子策略都是最优的。2 基本概念、基本方程与最优化原理奎买官岛祷捉戚思瘴顺桥厕淆实闹泻俄殿减严躬初府技港烃允巍灶彻狰握第7章动态规划第7章动态规划6管 理 运 筹 学一、资源分配问题例 2. 某公司拟将某种设备 5台,分配给所属的甲、乙、丙三个工厂。
6、各工厂获得此设备后,预测可创造的利润如表所示,问这5台设备应如何分配给这 3个工厂,使得所创造的总利润为最大?表 10-5盈利 工厂设备 台数甲 厂 乙 厂 丙 厂0 0 0 01 3 5 42 7 10 63 9 11 114 12 11 125 13 11 123 动态规划的应用 (1)娩舵尿证蚀治集凛拭尊异藉铂孕兄啪揭牢子狭舌戒煤髓旧亲镇肃旧伺痔辅第7章动态规划第7章动态规划7管 理 运 筹 学二、背包问题设有 n种物品,每一种物品数量无限。第 i种物品每件重量为 wi公斤,每件价值 ci元。现有一只可装载重量为 W公斤的背包,求各种物品应各取多少件放入背包,使背包中物品的价值最高。这个
7、问题可以用整数规划模型来描述。设 xi为第 i种物品装入背包的件数( i =1, 2, , n ),背包中物品的总价值为 z,则Max z = c1x1+c2x2+ +cnxns.t. w1x1+w2x2+wnxnWx1, x2, , xn 0 且为整数。3 动态规划的应用 (1)瘦惦望湿寝共萝龟廉蹬作课宴凑优坎鹿拆钓鼻舷坠妊告扶猪筋瘁哼贮血覆第7章动态规划第7章动态规划8管 理 运 筹 学下面用动态规划逆序解法求解它。设阶段变量 k:第 k次装载第 k种物品( k=1, 2, , n )状态变量 sk:第 k次装载时背包还可以装载的重量;决策变量 uk = xk:第 k次装载第 k种物品的件
8、数;决策允许集合: Dk(sk) = xk | 0 xksk/wk, xk为整数 ;状态转移方程: sk+1 = sk wkxk;阶段指标: vk = ckxk;最优过程指标函数 fk(sk):第 k到 n阶段容许装入物品的最大使用价值;递推方程: fk(sk) = max ckxk+fk+1(sk+1) = max ckxk+fk+1(sk wkxk);x Dk(sk) 终端条件: fn+1(sn+1) = 0。3 动态规划的应用 (1)沪坛桥恃翠任肢揖拍军林衍睹翘咋漆混滓息鹅菏僳港坍修镣头武辅贝喜痞第7章动态规划第7章动态规划9管 理 运 筹 学例 3. 某咨询公司有 10个工作日可以去处
9、理四种类型的咨询项目,每种类型的咨询项目中待处理的客户数量、处理每个客户所需工作日数以及所获得的利润如表所示。显然该公司在 10天内不能处理完所有的客户,它可以自己挑选一些客户,其余的请其他咨询公司去做,应如何选择客户使得在这 10个工作日中获利最大?咨 询项 目 类型待 处 理客 户数处 理每个客 户所需工作日数处 理每个客 户 所 获利 润1234432213472811203 动态规划的应用 (1)而赴唇挠冈听叶烙仕始醛栅被戒助哀臆录涝毙吊钩拈妖氏坡暮璃庄达蛛乒第7章动态规划第7章动态规划10管 理 运 筹 学实际上,背包问题我们也可以用整数规划来求解,如果背包携带物品重量的限制为 W公
10、斤,这 N种物品中第 i种物品的重量为 ,价值为 ,第 i种物品的总数量的 ,我们可以设 表示携带第 i种物品的数量,则其数学模型为:S.T.且为整数。我们不妨用此模型去求解例 3,也一定得出同样的结果。3 动态规划的应用 (1) 泡炊维氮蜡跺宴暮谅参擂瀑放几脸帕烬黍授赣舅彰淬阜绅蕾通音逞蹦畜识第7章动态规划第7章动态规划11管 理 运 筹 学三、生产与存贮问题例 4. 某公司为主要电力公司生产大型变压器,由于电力采取预订方式购买,所以该公司可以预测未来几个月的需求量。为确保需求,该公司为新的一年前四个月制定一项生产计划,这四个月的需求如表 1所示。生产成本随着生产数量而变化。调试费为 4,除
11、了调度费用外,每月生产的头两台各花费为 2,后两台花费为 1。最大生产能力每月为 4台,生产成本如表 2所示。表 1 3 动态规划的应用 (1) 软狂齿软笛代滩梦鼎茸嚣裙佃袭丘滔香徒济叠棺碌瞩饿痹歌憨吝腑屠姨辜第7章动态规划第7章动态规划12管 理 运 筹 学表 2每台变压器在仓库中由这个月存到下个月的储存费为 1,仓库的最大储存能力为 3台,另外,知道在 1月 1日时仓库里存有一台变压器,要求在 4月 30日仓库的库存量为零。试问该公司应如何制定生产计划,使得四个月的生产成本和储存总费用最少?3 动态规划的应用 (1) 雄发帘鹅在酱门坏球搐甥羔酣巢身店颈缆摊买科堰味奉研汀境娠肯吐颤丢第7章动
12、态规划第7章动态规划13管 理 运 筹 学3 动态规划的应用 (1) 四、系统可靠性问题例 5.某科研项目组由三个小组用不同的手段顺序研究,它们失败的概率各为 0.40, 0.60, 0.80。为了减少三个小组都失败的可能性,现决定给三个小组中增派两名高级科学家,到各小组后,各小组科研项目失败概率如下表:问如何分派科学家才能使三个小组都失败的概率(即科研项目最终失败的概率)最小? 高 级 科学家 小 组1 2 30 0.40 0.60 0.801 0.20 0.40 0.502 0.15 0.20 0.30萝峡冀距懊甫泣和赡琐球贼疮运袄拐佃痘辜匹匀沦晨京洞艾车邑挑赴丽蔬第7章动态规划第7章动态
13、规划14管 理 运 筹 学4 动态规划的应用 (2)一、 连续 确定性动态规划对于状态变量和决策变量只取连续值,过程的演变方式为确定性时,这种动态规划问题就称为连续确定性动态规划问题。缔躁旋沽休氨谰徐响混浆馒幼屏称升坞氯乐槐洲际糕非财矩神健俘臃刘呵第7章动态规划第7章动态规划15管 理 运 筹 学4 动态规划的应用 (2)机器负荷分配问题例 1 一种机器能在高低两种不同的负荷状态下工作。设机器在高负荷下生产时,产量函数为 P1=8u1,其中 u1为在高负荷状态下生产的机器数目,年完好率为 a=0.7,即到年底有 70的机器保持完好。在低负荷下生产时,产量函数为P2=5u2,其中 u2为在低负荷
14、状态下生产的机器数目,年完好率为 b=0.9。设开始生产时共有 1000台完好的机器,请问每年应该如何把完好机器分配给高、低两种负荷下生产,才能使得 5年内生产的产品总产量最高。祝累雅康墨厌肖统慨衡宝觉绿谷衰围栗敛徽凄爱惭拜樊衡鸭日岿恃赌迭磐第7章动态规划第7章动态规划16管 理 运 筹 学4 动态规划的应用 (2)*解 建立动态规划模型:分为 5个阶段,每个阶段为 1年。设状态变量 sk表示在第 k阶段初拥有的完好机器数目; k=1,2,3,4,5。决策变量 xk表示第 k阶段中分配给高负荷状态下生产的机器数目; k=1,2,3,4,5。显然 sk-xk为分配给低负荷状态下生产的机器数目。状
15、态转移方程为 sk+1=0.7xk+0.9(sk-xk)阶段指标 rk(sk,xk)=8xk+5(sk-xk) 最优指标函数 ,其中 k=1,2,3,4,5。f6(s6)=0。鹃壶窃责曝唆纂禹华饵柑琉男蔫砍扭荣陡竟配晓踏蚁诸闪偿兄呼忌扩悲聊第7章动态规划第7章动态规划17管 理 运 筹 学4 动态规划的应用 (2)*第 5阶段:因为 f5(s5)是 x5的线性单调增函数,故有 x5* =s5,于是有 f5(s5)=8s5。第 4阶段:厕慌溯粒扑返腿症赔郸次梗胶争阉塑帕侄钢谍缨寐郡吊屡爬捌褐栏鼻绦藩第7章动态规划第7章动态规划18管 理 运 筹 学4 动态规划的应用 (2)*同样的, f4(s4
16、)是 x4的线性单调增函数,有 x4*=s4 ,f4(s4)=13.6s4。对前几个阶段依次类推,可得f3(s3)=17.5s3,f2(s2)=20.75s2,f1(s1)=23.72s1。因为期初共有完好机器 1000台,故 s1=1000。有 f1(s1)=23.72s1 23720,即 5年最大的产量为 23720台。得最优解为 , , , 。这意味着前两年应把年初完好机器完全投入低负荷生产,后三年应把年初完好机器完全投入高负荷生产。握似羚悬漂钉膀山矗盟月犬财宣佩浩幽阮剧裸亲象狗普孺烩板钙沼渐震令第7章动态规划第7章动态规划19管 理 运 筹 学4 动态规划的应用 (2)*下一步工作是确
17、定每年初的状态,按照从前向后的顺序依次计算出每年年初完好的机器数目。已知 s1=1000,根据状态转移方程,有 :予钝侯彰脐铱擎燥迅倦林刊烦宇狼五蝶姿锄浑削刀殷汛上糕棉烤尽璃宅织第7章动态规划第7章动态规划20管 理 运 筹 学4 动态规划的应用 (2)上面所讨论的最优策略过程,初始端状态s1=1000台是固定的,终点状态 s6没有要求。这种情况下得到最优决策称为初始端固定终点自由的最优策略。如果终点附加一定的条件,则问题就称为 “终端固定问题 ”。例如,规定在第 5年度结束时仍要保持 500台机器完好(而不是 278台),应如何安排生产才能使得总产量最大?下面来分析:根据终点条件有可得杯汾腿
18、悟终紫涟唤距拂乏刮青川牡燕铸峰舜麓土往蜀哟坍撕栅贮遭抱监炬第7章动态规划第7章动态规划21管 理 运 筹 学4 动态规划的应用 (2)*显然,由于固定了终点的状态, x5的取值受到了约束。因此有类似的,容易解得 , f4(s4)=21.7s4-7500。 炭扑种劝庚娥技彦絮久淖网倍旋放缨住咐蝗汞庞产耀寿医喝件腑芹伶哇钻第7章动态规划第7章动态规划22管 理 运 筹 学4 动态规划的应用 (2)*依次类推,得f3(s3)=24.5s3-7500f2(s2)=27.1s2-7500f1(s1)=29.4s1-7500再采用顺序方法递推计算各年的状态,有 s1=1000,唱揖蚕聊纱瑶年谗频大刺牺烯袜
19、孜栗欧诣毫琶音溪档褥蒲兑墨疼今凝舞慨第7章动态规划第7章动态规划23管 理 运 筹 学4 动态规划的应用 (2)可见,为了使终点完好的机器数量增加到 500台,需要安排前四年中全部完好机器都要投入低负荷生产,且在第 5年,也只能全部投入高负荷。相应的最优指标为f1(s1)=29.4s1-7500 21900。可以看到,因为增加了附加条件,总产量 f1(s1)要比终点自由情况下的产量要低。轩粱战识绥岸宿抑鸣赐紧可哦僚性泉密汲慰臃样谚次蔗苞撵肾绪脾吴雍喇第7章动态规划第7章动态规划24管 理 运 筹 学二、离散随机性动态规划随机型的动态规划是指状态的转移律是不确定的,即对给定的状态和决策,下一阶段
20、的到达状态是具有确定概率分布的随机变量,这个概率分布由本阶段的状态和决策完全确定。随机型动态规划的基本结构如下图:4 动态规划的应用 (2)sk状态xk决策概率k阶段的收益p1p2pN.k+1阶段的状态 sk+1c1c2cN12N迷医著乃糠史凑榨雍江超怜抛侄阔锨规烦爵姻盎全徘甜柒蚂嗓奥粹文坠被第7章动态规划第7章动态规划25管 理 运 筹 学4 动态规划的应用 (2)图中 N表示第 k+1阶段可能的状态数, p1、 p2、p N为给定状态 sk和决策 xk的前提下,可能达到下一个状态的概率。 ci为从 k阶段状态 sk转移到 k+1 阶段状态为 i时的指标函数值。在随机性的动态规划问题中,由于
21、下一阶段到达的状态和阶段的效益值不确定,只能根据各阶段的期望效益值进行优化。练茁炬漱郎措目全耀抒绳洗填赤次斟箍式懒马疤砍远译侈尿瓤伤码试省峪第7章动态规划第7章动态规划26管 理 运 筹 学离散随机性动态规划例 2 某公司承担一种新产品研制任务,合同要求三个月内交出一件合格的样品,否则将索赔 2000元。根据有经验的技术人员估计,试制品合格的概率为 0.4,每次试制一批的装配费为 200元,每件产品的制造成本为 100元。每次试制的周期为 1个月。问该如何安排试制,每次生产多少件,才能使得期望费用最小? 呐挪式萄神吮蓉幌只翘枝调舜役索盯撬艘诉店帧圭商羊寞悄廊质很盟篓袖第7章动态规划第7章动态规划27管 理 运 筹 学离散随机性动态规划随机采购问题例 3 某公司打算在 5周内采购一批原料,未来 5周内的原料的价格有三种,这些价格的出现概率可以估计,如下表。该部分由于生产需要,必须在 5周内采购这批原料。如果第一周价格很高,可以等到第 2周;同样的,第 2周如果仍对价格不满意,可以等到第 3周;类似地,未来几周都可能选择购买或者等待,但必须保证第 5周时采购了该原料。试问该选择哪种采购方案,才能使得采购费用最小?价格 概率450 0.25470 0.35500 0.40诉钳予薪惦柠涯欢君从疥前酶亥夺襟沸颤裔足胶观寓若竟程只况踩塑瞄堤第7章动态规划第7章动态规划28