收藏 分享(赏)

最优化理论chap7_动态规划应用.ppt

上传人:wspkg9802 文档编号:7179554 上传时间:2019-05-08 格式:PPT 页数:66 大小:706KB
下载 相关 举报
最优化理论chap7_动态规划应用.ppt_第1页
第1页 / 共66页
最优化理论chap7_动态规划应用.ppt_第2页
第2页 / 共66页
最优化理论chap7_动态规划应用.ppt_第3页
第3页 / 共66页
最优化理论chap7_动态规划应用.ppt_第4页
第4页 / 共66页
最优化理论chap7_动态规划应用.ppt_第5页
第5页 / 共66页
点击查看更多>>
资源描述

1、第七章 动态规划,动态规划问题的基本概念和基本原理动态规划模型的建立与求解应用举例马氏决策规划,应用举例,1。背包问题 2。生产经营问题 3。设备更新问题 4。复杂系统可靠性问题 5。货郎担问题,背包问题,一般提法: 旅行者携带背包登山,能承受的背包重量上限是b千克,现有n种物品,每件的重量是ai千克,每种物品的价值为ci(xi),是其数量xi的函数,问旅行者如何规划,使携带物品的总价值最大?推广:装载问题、资源分配问题、决策问题等,背包问题标准模型,xi为整数,转化为动态规划问题: 阶段: 分为n个阶段 k = 1, 2, ,n 状态变量sk:k阶段时的可背的重量,则s1=b 决策变量uk:

2、 k阶段选择第k种物品的数量, uk= xk 状态转移方程: sk +1= sk - ak xk 决策集合Dk(sk) : xk|0xk sk/ak 阶段指标函数vk(sk, uk): k阶段放入物品的价值。 vk(sk, uk)= ck(xk) 递推方程:fk(sk) = max ck(xk) + fk+1(sk+1) 0xk sk/akfn+1(sn+1)=0,装载问题,例3:最大载重为10吨的卡车,其货物的单位重量及相应单位价值如下表所示,问如何装载使货物的总价值最大?,例3 模型,max z = 4x1+ 5x2+ 6x3s.t. 3x1+ 4x2+ 5x3 10xi 0 xi为整数

3、i =1,2,3,第1步,k =3 f3(s3) = max 6x3 + f4(s4) = max 6x3 0x3 s3/5 0x3 s3/5,第2步,k =2 f2(s2) = max 5x2 + f3(s2 - 4x2 ) 0x2 s2/4,第3步,k =1 f1(s1) = max 4x1 + f2(s1 - 3x1 ) 0x1 10/3,算法分析,算法的复杂度与允许状态的大小直接相关应尽可能缩小允许状态的范围,允许状态,s2 s1 - 3x1,s3 s2 - 4x2,求解,k =3 f3(s3) = max 6x3 + f4(s4) = max 6x3 0x3 s3/5 0x3 s3/

4、5,解法总结,初始条件已知 逆序解法初始条件已知 终点状态多个 顺序+逆序,设备更新问题,设备:使用时间t : 越长 效益r(t): 越小 维修费u(t): 越大更新费c (t): 越大问:更新方案,使n期内总收益最大,问题分析,阶段: 分为n个阶段 k = 1, 2, ,n 状态变量sk:设备已使用时间t 决策变量xk: xk= Keep 保留xk= Replacement 更新 状态转移方程: sk +1= sk +1 xk= Ksk +1= 1 xk= R 阶段指标:第k阶段的总收益vk(sk, xk) = rk(sk) - uk(sk) xk= Kvk(sk, xk) = rk(0)

5、- uk(0) - ck(sk) xk= R,迭代方程,最优指标函数fk(sk):第k阶段起的最大总收 益。,fk(sk),xk= K,xk= R,fn+1(sn+1)=0,为折扣因子,例4,例4:某新设备的收益、维修费和更新费如下表,折扣因子=1,设计最优更新方案。,(单位:万元),迭代方程,fk(sk),xk= K,xk= R,k =5 s5 = 0,1,2,3,4 k =1 s1 = 0 顺序+逆序,第 1步,x1* = K,k =1 s1 = 0,第 2步,k =2 s2= 1,x2= K,x2= R,第 3步,k =3 s3 = 1,2,x3(1)= K,x3(1)= R,x3(2)

6、= K,x3(2)= R,k =4 s4 = 1,2,3,x4(1)= R,x4(2)= R,x4(3)= R,x4(1)= K,x4(2)= K,x4(3)= K,k =5 s5 = 1,2,3,4 f6(s6)=0,x5(1)= K,x5(2)= K,x5(3)= R,x5(4)= R,k =4 s4 = 1,2,3,x4(1)= R,x4(2)= R,x4(3)= R,第 3步,k =3 s3 = 1,2,x3(1)= R,x3(2)= R,第 2步,k =2 s2 = 1,x2*= R,第 1步,k =1 s1 = 0,结果,货郎担问题(TSP ),n个城镇vi, vi到vj的距离为d

7、ij,一个货郎从城镇v1出发,经过且仅经过其他每个城镇1次,回到v1 ,应如何选择路线,使总的行程最短?,穷举法复杂度,若n=20,m=1.221017, 设计算机每秒搜索1亿条路径 需38.6年。,常用算法,贪心法 分枝定界法 搜索算法 动态规划法Hopfield网络法 能量函数法 蚁群算法,问题分析,阶段: 分为n个阶段 k = 1, 2, ,n,状态sk:第k步所在的城市,不能保证无后效性!,状态sk:第k步出发时已走过的城市集合 决策uk: 第k步的目的地 s1=v1 s2=v1, vi =s1, u1 u1= vi v1 s3 =s2, u2 u2 s2 。sk=sk-1, uk-1

8、 uk-1sk-1 un=v1阶段指标函数:v(sk,uk)=d(uk-1,uk)=dji 设uk= vi , uk-1= vj,现在的位置,最优指标,fk(sk+1): 从v1出发,经过sk中的城市,到达uk的最短距离,若采用顺序法解,定义最优指标函数为:,初始和终点状态已知,递推关系,递推关系:,uk sk, k=1,2,3; u4= v1,例5,例5:四个城市间的距离如下表,求从城市1出发的货郎担问题。,第 1步,k =1f1(1,2)= d12 + f0(1)=6f1(1,3)= d13 + f0(1) =7f1(1,4)= d14 + f0(1) =9,第 2步,k =2 f2( 1

9、,3,2)= d32 + f1(1,3) =8+7=15 f2( 1,4,2)= d42 + f1(1,4) =5+9=14 f2( 1,2,3)= d23 + f1(1,2) =9+6=15 f2( 1,4,3)= d43 + f1(1,4) =5+9=14 f2(1,2,4)= d24 + f1(1,2) =7+6=13 f2( 1,3,4)= d34 + f1(1,3) =8+7=15,k =3f3(1,3,4,2)= min d32+ f2(1,4,3), d42+ f2(1,3,4)=min 8+14, 5+15 =20f3(1,2,4,3)= min d23+ f2(1,4,2),

10、 d43+ f2(1,2,4)=min 9+14, 5+13 =18f3(1,2,3,4)= min d24+ f2(1,3,2), d34+ f2(1,2,3)=min 7+15, 8+15 =22,第 4步,k =4f4(1,2,3,4,1) = min d21+f3(1,3,4,2),d31+f3 (1,2,4,3), d41+f3(1,2,3,4) =min 8+20, 5+18, 6+22=23最优路线:12 4 3 1,例6 离散系统最优控制,例6:一阶系统,求最优控制u*,使下列目标最小:,问题分析,阶段: 分为3个阶段 k = 0, 1,2 状态变量xk 决策变量uk 状态转移

11、方程: xk+1 = 2xk+ uk 阶段指标函数:vk = xk2 + uk2 最优指标函数Jk*(xk): 阶段k到阶段2的阶段 最优指标函数值,迭代方程,迭代方程:Jk*(xk)= min( xk2 uk2 ) + Jk+1*(xk +1)J3*(x3)=0,第 1步,k =2,第 2步,k =1,第 3步,k =0,最优控制问题,连续时间动态系统:Hamilton-Jacobi-Bellman方程 以偏微分方程的形式,给出了连续时间动态系统最优控制的充要条件并可以根据Hamilton-Jacobi-Bellman方程推导出极大值原理,后者是最优控制的必要条件,连续系统最优控制,连续时间

12、动态系统:,求最优控制u*,使下列指标最小:,HJB方程,连续时间动态系统:,其中:,定常系统,对于定常系统:,可以证明:,此时有:,举例,对于定常系统:,求u*,使下列目标函数最小。,例7,令,根据,根据,生产经营问题,例7 已知原料的价格概率分布如下表,求五周内的采购策略。,问题分析,设 第k周到第5周的最低期望采购价为fk, 第k周商品的实际价格sk 当:sk fk 不买sk fk 购买,问题分析,阶段: 分为5个阶段 k = 1,2,5 状态变量sk : 第k周的实际价格 决策变量xk: xk=1,采购; xk=0,不采购 最优指标函数fk(sk): 第k周到第5周的最低期 望采购价

13、递推关系:fk(sk) =Emin sk , fk+1(sk+1) f5(s5) = E s5 ,第 1步,k =5 必须购买 x5* =1f5(s5) = E s5 =0.3 500+0.3 600+0.4 700=610,第 2步,k =4 f4(s4) =Emin s4 , f5(s5) = 0.3 min500,610+0.3min600,610+0.4 min700,610= 0.3 500+0.3 600+0.4 610=574,其他,f5(s5) =610 f4(s4) =574 f3(s3) =551 f2(s2) =536f1(s1) =525,Markov过程,动态随机系统

14、,满足: 1。状态转移的概率规律已知 2。无后效性,本阶段状态只与上一阶段有 关最简单的情况:Markov链 时间、状态都是离散的,且状态有限,状态i 必定转移在N个状态之中,报酬矩阵,假设状态i转移到j产生的报酬为rij 则状态i 经过1次转移的期望报酬q(i)为:,则状态i 经过n次转移的总期望报酬vn(i)为:,Markov决策规则,最优指标函数fn(i ):初始状态i 经过n次转移后的最大总期望报酬值。,D为决策集合,例8 某工厂产品销路有好(状态1)、坏(状态2)两种情况,决策有不登广告(决策1)、登广告(决策2)两种情况,转移矩阵与报酬矩阵如下,问两个月的决策。,决策过程,f1(1) = maxq1(1), q2(1)=max6,4=6 d1(1)=1 f1(2) = maxq1(2), q2(2)=max-3,-5=-3 d1(2)=1f2(1) = max7.5,8.2=8.2 d2(1)=2 f2(2) = max-2.4,-1.7=-1.7 d2(2)=2,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 实用文档 > 工作计划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报