1、数学模型脚本/sm91109.1 动态规划的基本概念基本概念 最优化原理 简单例子 请你探索基本概念设我们研究某一个过程,这个过程可以分解为若干个互相联系的阶段。每一阶段都有其初始状态和结束状态,其结束状态即为下一阶段的初始.状态。第一阶段的初始状态就是整个过程的初始状态,最后一阶段的结束状态就是整个过程的结束状态。在过程的每一个阶段都需要作出决策,而每一阶段的结束状态依赖于其初始状态和该阶段的决策。动态规划问题就是要找出某种决策方法, 使过程达到某种最优效果。这种把问题看作前后关联的多阶段过程称为多阶段决策过程, 可用图 9.1 表示。下面介绍动态规划的术语和基本概念。(l)阶段(2)状态变
2、量例子(转 9111)(3)决策变量的状态转移方程(4)权函数(5)指标函数/鼠标指向上述名词时,弹出下面对应的内容解释线框,框内题目用粗体 9号字、居中,内容用 12 号字。可参看第一章,数学模型分类的处理。/(l)阶段 把所研究的过程恰当地分为若干个互相联系的相对独立过程。(2)状态变量 用来描述系统所处状态的变量称为状态变量。通常用 sk 表示第 k 阶段的初始状态,则 sk+1 表示第 k 阶段结束时 (也就是第 k+l 阶段开始时)过程的状态。通常要求状态变量具有无后效性, 即过程在第 k 阶段以后的变化只与该阶段结束时的状态有关, 而与系统如何到达此状态的过程无关。(3)决策变量的
3、状态转移方程。系统在第 k 阶段中的变化过程, 通常我们并不关心,但我们希望知道该阶段的初始状态与结束状态之间的关系。我们用以影响该系统的手段,也用一个变量 xk 表示,称为决策变量, 则第 k 阶段结束时的状态 sk+1 是决策变量 xk 和初始状态 sk 的函数, 即图 9.1数学模型脚本sk+1=T(sk,xk) (9-1)(9-1)称为状态转移方程。(4)权函数 反映第 k 阶段决策变量 xk 的效益函数 Wk(sk,xk) 称为权函数。(5)指标函数 判断整个过程优劣的数量指标称为指标函数。当第 k 阶段初始状态为 sk 时,设我们在此阶段及以后各阶段均采取最优策略时,所获得的效益为
4、fk(sk), 那么有(9-2)(),()( 1kkkDxk sfxsFoptsfk其中 opt 表示最优,按具体问题可取为 max 或 min, Dk 是决策变量 xk 的定义域;F k是某一个函数; s k+1=T(sk,xk). /sm9111例如,描述一质点在已知力场中的运动,若我们选取该质点的坐标(x,y,z)作为状态变量, 则不能满足无后效性要求, 因质点的运动不仅与它当前的坐标有关,还与它如何来到此点的过程有关。若我们选取该质点的位置向量 r 与速度向量v 作为状态变量,那么就可以满足无后效性的要求, 因为质点在已知力场中的运动由它的初始位置和初始速度完全决定, 而与质点以前的历
5、史无关。返回(转 9110)/sm9120动态规划的最优化原理(9-2)反映动态规划的最优化原理:最优策略的每一部分子策略,都是相应阶段的最优策略。要运用动态规划解决某个问题,关键在于把该过程分解为若干阶段、这些阶段的状态变量和决策变量以及指标函数应该满足最优化原理。利用状态转移方程(9-1)和递推方程(9-2) 来解动态规划的方法称为逆序解法。对某些问题,也可采用顺序解法,请参阅有关书籍。在许多问题中,有 )(),()(),( 11 kkkkkk sfxsWsfxsWF这时递推方程(9-2)可以写成(9-3)(),()( 1kkkDxk foptfk/sm9130简单例子求解如下问题:数学模
6、型脚本3,21 ,093.4max122ixtsfi解 我们把该问题分为三个阶段:阶段 1:初始状态 s1=9, 决策变量 x1;阶段 2:初始状态 s2=s1-3x1, 决策变量 x2;阶段 3:初始状态 s3=s2-2x3, 决策变量 x3.则有 ,第三阶段的目标函数为 ,有30x3)( ,ma)( 3223 sxsf 现在有 ,目标函数为 ,有2s32x)0( ,2)(ax a)( 22 3xsxsff最后有 ,目标函数为 ,故有301sx314)0( ,294,2max )(24max)( 11112211 ssssff因为 s1=9, x1=x2=0, 故得 s3=9, 从而 x3=9, 此时 max f=f1(9)=162.即此题的最优解为 x=(0,0,9), 最优值为 162./sm9140请你探索如何用动态规划的方法证明以下不等式: nnxxxn 1)()(1212 其中各 xi0.