1、七. 随机系统最优控制(Stochastic Optimal Control)引言前面都是以确定性系统为基础讨论最优控制问题,而实际上绝对的确定性系统几乎不存在,各种工程系统中总是或多或少地存在不确定性。如何处理系统中的不确定性已经是当前控制理论研究的重要问题。引起不确定性的原因很多,处理的方法也有很多。随机系统控制理论考虑不确定性问题中的随机扰动部分,方法是将确定性控制系统理论与概率论、随机过程理论方法相结合。随机系统最优控制作为随机系统控制理论的重要组成部分,是建立在最优状态估计基础之上的。但由于最优状态估计在其他课程中已有介绍,不是本课程的重点,因此暂且略过。7.4 随机系统最优控制随机
2、系统最优控制的两种主要表现形式:最小方差控制基于输入输出模型随机二次型最优控制基于线性状态空间模型最小方差控制问题可以看作是随机线性二次型最优控制问题的特例,所以这里只讨论随机线性二次型最优控制问题。设在随机作用下系统状态方程为(7-4-1) )()()()()( twtGtxtAtx 初始状态为(7-4-2) 00)( xtx 其中x(t)是n维随机状态向量;x0是n维随机初始状态向量,其统计性能为(7-4-3)(7-4-4) 000)( xEtxE0000000)()(xxTPtPxxEtxVar (1)系统状态对随机作用的响应w(t)是m维零均值高斯白噪声过程,统计性能为(7-4-5)
3、)()()()()(),( ttQwtwEwtwCovT等于其他值0221t,t,)(tii) x(t)的方差阵满足矩阵微分方程(7-4-9) 及初始条件则可以证明存在下列有关x(t)统计性能的关系式:i) x(t)的均值满足矩阵微分方程(7-4-7)(7-4-8) 其中,为狄拉克函数;Q(t)为动态噪声w(t)的协方差矩阵。并设x(t0)与w(t)无关,即(7-4-6)0 )()()()(),(000TtEwtwtxEwtxCov )()()()()( tEwtGtExtAtExdtd00)( txE)()()()()()()()( tGtQtGtAtPtPtAtPxxxTT00)(xxPt
4、P 均为确定性方程iv)与w(t)的协方差阵为(7-4-11) iii) x(t)的协方差阵为(7-4-10) 其中为系统(7-4-1)的状态转移矩阵。0),()(),()(),(),(tttPttPtPttttPxxxxT),( tt )( tx000)()(210)()(),(),( tQtGtQtGttttPxw对于定常随机系统(7-4-12) 当其具有与上述相同的噪声统计性能时,x(t)的统计性能有类似于上面公式的表达式。当时,有00)()()()(xtxtGwtAxtxt PtPx)(ii) x(t)的方差阵满足矩阵代数方程(7-4-9)i) x(t)的均值满足矩阵微分方程(7-4-
5、7)(7-4-8)()()( tGEwtAExtExdtd00)( txE0TTGGQAPPAxxiii) x(t)的协方差阵为(7-4-10) iv) 与w(t)的协方差阵为(7-4-11)0)()()()(TxxxxPPPP000210)()( GQGQPxw)( tx要求得确定性的性能指标数值,需要考虑用Js的数学期望(7-4-16)作为性能指标。其中为终值项加权矩阵,Q(t)为积分项加权矩阵,均为对称半正定矩阵。)()()(21)()(210dttxtQtxtxPtxEEJJffttftfsTT仍考虑系统(7-4-13)及其初始状态(7-4-14)(2) 系统状态的随机型性能指标)()
6、()()()( twtGtxtAtx 00)( xtx 由于x(t)是在白噪声w(t)作用下动力学系统的响应,是一个随机过程,如果采用与确定性二次型性能指标相同的表示方法,即(7-4-15) dttxtQtxtxPtxJffttftfs0)()()(21)()(21TTftP则Js就无法象确定性系统那样是一个确定数值,而是一个随机变量。首先假定。令,表示对取均值,则此时有。再考虑,其中,表示对nn维方阵A的对角线元素ai求和。则有(7-4-17)在上式右边加上一项,并令,及考虑,则上式可表示为上式可以考虑表示为另外一种形式。0)(00 txE)(000 TxxEtPxT00xx000)()(x
7、xxPtPtP 0000TTxxTxxrniiraAT1)()(21)(210dttQtPPtPTJffttxtfxr0)()()()()()(21000tPtPtPtPdttPtPdtdxffxttxfftfPtP )()()()(21)()()()(21)(21000tPtPPtPdttPtPdtdtQtPPtPTJxtfxxttxtfxrfff)()()()()()()()(21000dttPtPtPtPtQtPtPtPTxxttxxrf)()(00tPtPxx只在0=0时成立将x(t)的方差阵满足的(7-4-9)式代入上式,并注意到(M、N为相同维数方阵),则上式可改写为(7-4-18
8、) )(tPx NMTMNTrr)()()()()()(21000dttPtGtQtGtPtPTJfttxrT其中,P(t)必须满足矩阵微分方程(7-4-19)以及终值条件(7-4-20)(7-4-19)和(7-4-20)式即为确定性系统,0)()()()()()( tQtPtAtAtPtPTftfPtP )()()()()()( tutBtxtAtx 00)( xtx 当B(t)=0时的最优控制所满足的黎卡提方程。 回顾:当B(t)0时,黎卡提方程为)()()()()()()()()()()( tQtPtAtPtBtRtBtPtAtPtP TT1)()()()()()()()( tGtQtG
9、tAtPtPtAtPxxxTT若,仍定义,有这时由方差因此得随机系统性能指标的最后形式为(7-4-21)0)(00 txE)(000 TxxEtPxTTTTTTT00000000000000000)(xxEExExxxExxEtPxT0000)()( tPtPxx)()()()()()()()(000000000000tPtPTtPtPtPtPTtPtPTxrxrxrTT)()()()()()(21)(21000000dttPtGtQtGtPtPTtPJfttxrTT 此式中P(t)仍应满足(7-4-19)和(7-4-20)式。关于随机系统最优性能指标的讨论当w(t) 0,Q(t) 0,系统初
10、始状态为零均值随机变量,即有,与前面讨论过的确定性系统二次型最优性能指标完全一致。则有(7-4-24) 当w(t) = 0,Q(t) = 0(即系统无随机干扰),并且系统初始状态为确定性,即,则有,此时即为确定性系统000)( xtx0)(0tPx00)()()()(xtxtxtAtx(7-4-22)的性能指标,由(7-4-21)可得(7-4-23)000000)(21)(21xtPxtPJTT 0)(000 ExtEx )()(00tPtxVarx)()()()()()(21000dttPtGtQtGtPtPTJfttxrT)()()()()()(21)(21000000dttPtGtQtG
11、tPtPTtPJfttxrTT 当w(t) 0,Q(t) 0,并且系统初始状态为确定性,则有(7-4-26) )()()()(21)(210000dttPtGtQtGTtPJfttrTT 以上讨论表明,随机系统的性能指标总是大于相应的确定性系统性能指标,(7-4-21)式中右边的后两项分别是由于初始状态的随机性和系统的随机干扰而产生的。当w(t) = 0,Q(t) = 0,系统初始状态为非零均值随机变量,即有,则(7-4-25)0)(000 ExtEx )()(00tPtxVarx)()(21)(2100000tPtPTtPJxr T)()()()()()(21)(21000000dttPtG
12、tQtGtPtPTtPJfttxrTT (3) 随机状态反馈调节器考虑随机干扰作用下或系统本身存在随机误差时系统的动力学模型(7-4-27)(7-4-28) 其中x(t)为n维状态向量,w(t)为n维零均值高斯白噪声向量,u(t)为m维控制向量;)()()()()()( twtutBtxtAtx 00)( xtx 000( ) ,Ext Ex 0000000)()(xxTPtPxxEtxVar )()()()()(),( ttQwtwEwtwCovT0 )()()()(),(000TtEwtwtxEwtxCov 随机状态反馈调节器问题为:寻求最优控制u*(t),使随机二次型性能指标(7-4-2
13、9) 最小。)()()()()()(21)()(210dttutRtutxtQtxtxPtxEJffttftfTTT其中、Q(t)为半正定对称矩阵、R(t) 为正定对称矩阵,固定。这里假定状态均可量测,反馈采用全部状态。可以证明有如下定理:随机型状态反馈调节器的最优控制规律与确定型状态反馈调节器的最优控制规律完全相同,只是随机型状态反馈调节器的性能指标比确定型状态反馈调节器的性能指标变大了。证明:先证明确定性系统的一个预备定理:设确定性系统(7-4-30)(7-4-31) ftPft)()()()()( tutBtxtAtx 00)( xtx 和性能指标(7-4-32) 011() () ()
14、 () ()()()22ftTTTfftJxtFxt xtQxtutRtutdt 若采用某种控制规律,有以下负反馈形式,即(7-4-33) )()()( txtKtu 其中为任意选定的时间函数矩阵,则(7-4-30)变为(7-4-34) )()()()()( txtKtBtAtx )(tK其中,应适合如(7-4-19)形式的方程,即(7-4-37)性能指标变为(7-4-35) 式(7-4-34)与(7-4-22)形式一致,式(7-4-35)与(7-4-15)也一致,所以这时性能指标的取值形式为(7-4-36) 011() () () ()()()()22ftTTTfftJ xtFxt xtQK
15、tRtKtxtdtTJ xPtxt0001()()2)(tPFtPtKtRtKtQtPtKtBtAtKtBtAtPtPfTT)(0)()()()()()()()()()()()()(而以上问题的最优控制是(7-4-38) )()()(*txtKtu 其中(7-4-39)()()()(1tPtBtRtKTP(t)满足(7-4-40) FtPtQtPtBtRtBtPtPtAtAtPtPfT)()()()()()()()()()()()(1系统最优性能指标为由最优条件,应有和。000)(21xtPxJTJJ )()( tPtP 只有当时,上式中等号才成立。)()()()(1tPtBtRtKT则闭环系
16、统方程为(7-4-42)预备定理:设有矩阵微分方程及末端条件如(7-4-37) ,另有一矩阵微分方程及末端条件(7-4-40),其中,为任意连续时间函数矩阵,则有,只当时等号成立。基于上述确定性系统预备定理,对随机系统(7-4-27)、(7-4-28),任选一线性反馈控制律(7-4-41)0F 0)( tQ 0)( tRfttt 0)(tK )()( tPtP TKt R tB tPt1() () () ()()()( txtKtu )()()()()()( twtxtKtBtAtx 性能指标(7-4-29)可写为(7-4-43)()()()()()(21)()(210dttxtKtRtKtQ
17、txtxPtxEJTttftfffTT根据(7-4-19)(7-4-21)式,上式可写为(7-4-44) )()()(21)(21000000dttPtQtPPTtPJfttr T其中适合下列矩阵微分方程及末端条件(7-4-45) ftfTTPtPtKtRtKtQtPtKtBtAtKtBtAtPtP)(0)()()()()()()()()()()()()()(tP若选取(7-4-46)(7-4-47)()()( txtKtu )()()()(1tPtBtRtKT同样根据(7-4-19)(7-4-21)式,有系统性能指标(7-4-48) )()()(21)(21000000dttPtQtPPTt
18、PJfttr T其中适合矩阵Riccati方程及末值条件(7-4-49)(tPftfTTPtPtQtPtBtRtBtPtPtAtAtPtP)()()()()()()()()()()()(1考虑(7-4-45)、(7-4-49)式和预备定理,有,只当选取时,等式才成立,得到性能指标(7-4-48)的最小值。因此得到结论,随机型系统最优控制规律与相应的确定型系统最优控制规律完全相同。定理证明完毕。#)()( tPtP )()()()(1tPtBtRtKT由此,随机型状态调节器的最优控制规律为:其中满足)()()( txtKtu )()()()(1tPtBtRtKT)(tPftfTTPtPtQtPt
19、BtRtBtPtPtAtAtPtP)()()()()()()()()()()()(1最优性能指标为)()()(21)(21000000dttPtQtPPTtPJfttr T确定型系统性能指标随机初始状态引起系统噪声引起随机性使性能指标变大其中x(t)为n维状态向量,w(t)为n维零均值高斯白噪声向量,u(t)为m维控制向量,v(t)为量测零均值高斯噪声,其统计特性为考虑随机系统(7-4-50)(7-4-51) 和随机初态(7-4-52) (4) 分离定理和随机输出反馈调节器)()()()()()( twtutBtxtAtx )()()()( tvtxtCty 00)( xtx 0)()(,0)
20、()()()()(),()()()(,0)()(00000000tvxEtwxEPxxVartvtwEtRtvtvEtQtwtwExEtxEtvEtwETTTTTT寻求一个最优反馈控制规律u*(t),使性能指标(7-4-54)最小。其中、Q(t)为半正定对称矩阵、R(t) 为正定对称矩阵,固定。)()()()()()(21)()(210dttutRtutxtQtxtxPtxEJffttftfTTTftPft分离定理:随机输出反馈调节器问题的线性最优控制就是随机状态调节器的最优控制,只是用最小线性方差估计代替x(t),而由Kalman滤波方程给出。)(tx )(tx随机输出反馈调节器问题根据分离
21、定理,对系统(7-4-50)(7-4-52),有以下最优控制规律:(7-4-55)(7-4-56) 其中满足Riccati矩阵微分方程及末值条件(7-4-57) 由Kalman滤波方程(7-4-58)给出,满足以下Riccati矩阵微分方程及末值条件(7-4-60) 其初始条件为,(7-4-59) )()()( txtKtu )()()()(1tPtBtRtKT)(tPftfPtPtQtPtBtRtBtPtPtAtAtPtP)()()()()()()()()()()()(1 TT)(tx)()()()()()()()()(1txtCtytKtutBtxtAtx 00)(tx )()()()(111tRtCtPtKT )(1tP001111111)()()()()()()()()()()()()()(PtPtBtQtBtPtCtRtCtPtAtPtPtAtPTTTT随机输出反馈调节器最优控制闭环系统P(t)u(t)(t)x(t)Cy(t)() () () ()xt Axt But wt TBR1)(txKalman滤波器