1、1第一章 最优化问题与数学预备知识1. 最优化问题的一般形式给定目标函数,满足不等式约束及等式约束,记为:,其中)(minxfXTnx,.21)(,.0)(. ljhmistji 满足所有约束的向量 称为容许解或容许点,容许点集合称为容许集。X从最优化问题的一般形式可以看出,最优化要解决的问题就是在容许集中找一点 ,使目标函数 ,在 该点取极小。*x)(xf这样 称为问题的最优点,而相应的目标函数值 称为最优值。)(*xf2.最优化问题分类最优化问题可分为静态问题和动态问题两大类,本书只讨论静态问题。静态最优化问题又可分为无约束问题和约束问题两类。例:求 Rosenbrock 函数大极小点,即
2、 。2121)()(0minxx这是一个无约束二维问题。例:求优化问题 3214minx.ts0,0321xx的最优解。这是一个约束最优化问题。无约束问题又可分为一维问题及 n 维问题,求解一维问题的方法称为一维搜索或直线搜索,在最优化方法中起着十分重要的作用,故单独列出。2约束问题又分为线性规划和非线性规划。3.二次函数1)二次函数的一般形 nijniiji cxbqxfx1121),.()它的矩阵形式是 QxfT2(其中 ,212112nnnqqQnb.21这里 是对称矩阵。我们称特殊的二次函数 为二次型。 (无一次项和常数项)QxfT21)(2)正定矩阵设 是 阶对称矩阵。Qn若 且 时
3、都有 ,则称矩阵 是正定的;Rx00QxTQ若 都有 ,则称矩阵 是半正定的;nxT若 且 时都有 ,则称矩阵 是负定的。xxT若 都有 ,则称矩阵 是半负定的。nR0QxTQ一个对称矩阵是不是正定的,可用 sylvester 定理判定,该定理内容是。一个 阶对称矩阵 是正定矩阵的充分必要条件是,矩阵 的各阶主子式n Q都是正的。3)二次函数的最优解析解如矩阵 是正定矩阵 , 的等值面是同心椭球面族。QcxbQxfT21)( )(f其中心是 ,还可证明 恰是二次目标函数的唯一极小点。bx1*3综上所述,对于二次目标函数有有效的求极小点的算法。该算法也可用于一般目标函数小范围内的最优解搜寻,即当
4、搜索区域位于最优点附近时,该方法是一种有效算法。最优化理论中判定一个算法的好坏标准之一,就是把该算法用于 为正定Q的二次目标函数,如果能迅速地找到极小点,那就是好的算法;否则就是不好的或不太好的算法。特别地,当把一个算法应用于 为正定的二次目标函数时,如果在有限步内Q就能求出极小点来,那么这种算法称为二次收敛算法,或具有二次收敛性。4.梯度与 Hessian 矩阵1)多元函数的可微性与梯度定义 1:对于函数 ,如果存在 n 维向量 ,对于任意 n 维向量 ,有:)(xf l p,则称 在 处可微。0()(lim00plfxfTp )(xf0显而易见,如 在 处可微, 则有:)(xf0)()(0
5、0 pOlxfT实际上 就是 的偏导数向量l)(xf Tnxfxffl )(.)(,)(02010证明如下:令 ;nlll.,21取 ,其中 是无 穷小变量, 是第 个坐 标轴上的单位向量,即:iepi ieTii 0.,1,0., iiixipip xflxffpfexfpxfexf ii )()()()( 0000000 lmllm4定义 2: 以 的 n 个偏导数为分量的向量称为 在 处的梯度,记为)(xf )(xfTnxfxf )(.,)(21因此 ,这个公式与一元函数的 Taylor 展开)()()(000 pOfxfpf T式是相对应的。2)方向导数定义: 设 是定义在 中区域上的
6、实值函数, 在点 处可微, 是固定不fnRf0xp变的常量, 是方向 上的单位向量,则称极限 为函数ep txfept )(lim)( 00在点 处沿 方向的方向导数。)(xf0若 ,则 从 出发在其附近沿 方向是下降的。)(pf)(xf0p若 ,则 从 出发在其附近沿 方向是上升。0)(xf)(f0事实上,若 ,则当 且充分小时,必有 ,即0pft 0)(0txfexf,即 是下降的。)(0xf)(f同理可说明,若 , 是上升的。0px)(xf定理:设 是定义在 中区域上的实值函数, 在点 处可微,则fnRf0x,其中 是 方向的单位向量。exfpfT)()(00p证明:因为 )()()(0
7、00 pOxfff Texftoexfttexpx TTt )()limlim)( 0000 5推论:若 ,则 方向是函数 在点 处的下降方向;0)(pxfT )(xf0若 ,则 方向是函数 在点 处的上升方向;方向导数的正负决定了函数的升降,其绝对值的大小决定函数值升降的快慢。绝对值 越大,升降的速度就越快。3)最速下降方向 cos)()()(000xfexfpfT其中 是梯度与 方向的夹角。因此,函数负梯度方向就是函数的最速下降p方向。4)梯度的性质函数在某点的梯度若不为零,则必与过该点的等值面垂直。梯度方向是函数具有最大变化率的方向。若 ,则 ,即Cxf)(0)(xfC bT x2)(
8、QT5) Hessian 矩阵(1)向量 值函数的 导数设 是定义在 中区域上的向量值函数,如果 的所有分量gnR)(xg在 点都可微,那么向量值 函数 在点 处称为可微。)(,.)(21xxm0 0若 在点 处可微,则对于任意的 n 维向量 都有p0)()(li00 ppxgxgTiiip6因为向量的极限是通过它所有分量的极限来定义的,所以上式等价于 0)()(lim00 ppxgxgp其中 称为函数 在点 处的导数。也称函数 在点 处的 Jacobi)(0)(0 )(xg0矩阵。 nmmnm xgxgxxggxgx )(.)()()( )(.)(.)( 02010 022010111210
9、2设 ,并且 ,其中 是 n 元函数,假定它具有二阶连续偏导n)(fx)(f数。则: 2212 2212 1122 )(.)()(. )(.)()(.)()( nnnnxfxfxf xfxffxfxf在微积分中已经证明过,当 的所有二阶偏导数连续时,有)(f,在这种情况下,Hessen 矩阵是对称的。ijjixfxf)()(22(2)几个特殊向量的导数 ,其中 是分量全为常数的 维向量, 是 阶零矩阵。OccnOn ,Ix Q)(3) 的一二阶导数)0tpxft7设 )0()0(2)(10.,nxx).,)0(2)()( ntptptft txfxt Tinii )()( 010 ptxfpx
10、tfptfdtt Tni nij ijiji )()()()( 021 1020 5.多元函数的 Taylor 展开式定理: 设 是定义在 中区域上的实值函数,具有二阶连续偏导数,则:fnRpxfpxfpxf TT)(21)()( 其中 ,而0证明:设 ,于是)()txft)(1,0pf按一元函数 Taylor 展开定理把 在 点展开,得到)(t0,其中 。2 )()0()( ttt 1,因此pxfT pxfT)(00,因此ttT)()(02 f)02代入上式,即得证。多元函数的 Taylor 展开式还可写为: )()21)()( 2pOxfpxffpxf TT6.极小点及其判定条件1)基本定
11、义邻域定义:对于任意给定的实数 ,满足不等式 的的 x 的集合称00x为点 的邻域, 记为0x:),(0xxN8非严格局部极小点:设 ,若存在点 和数 ,1:RDfnDx*0都有 ,则称 为 的非严格局部极小点。DxN),(*)(*xf*)(f严格局部极小点:设 ,若存在点 和数 ,1:nx*但 都有 ,则 称 为 的严格局部极小点。x),(*x)(*xff)(f非严格全局极小点:设 ,若存在点 和数 , 都有1:RDnDx*0Dx,则称 为 的非严格全局极小点。)(*xff*)(xf严格全局极小点:设 ,若存在点 和数 , 都有1:nx*x,则称 为 的严格全局极小点。)(*xff*)(xf
12、在求解最优化问题时,要求求取全局极小点,可先求出所有的局部极小点,再求全局极小点。2)局部极小点的判定条件定理 1: 设 具有连续的一阶偏导数。若 是 的局部极小点1:RDfn*x)(f并且是 D 的内点,则 。0)(*xf证明:设 是任意单位向量。因为 是 的局部极小点,所以存在 ,当e*x)(f 0或 时总有t ),(*xNt)(tef引入一元辅助函数 *xt又因为 是 D 的内点,所以与它对应的 是 的局部极小点。*x 0t)(t根据一元函数极小点的必要条件,得 ,即 。)( 0*exf由单位向量的任意性,得到 )(*xf该条件仅仅是必要的,而不是充分的。定义: 设 , 是 D 的内点。
13、若 ,则 称为 的驻点。1:RDfn*x0)(*xf*x)(f9定理 2: 设 具有连续的二阶偏导数, 是 D 的内点。若1:RDfn*x并且 是正定的,则 是 的严格局部极小点。0)(*xf )(*2xf *x)(f证明:将 在点 处按 Taylor 公式展开得: )()()(21)()( 2*2* xOxfxpxffxTT 由于 ,故有0)()()()( 2*2* xxfxxfT显而易见,当 充分接近 时,上式左端的符号取决于右端的第一项,因此*有: 。)(*xf一般说来,这个定理仅具有理论意义。因为对于复杂的目标函数,Hesse 矩阵不易求得,它的正定性就更难判定了。论断 1:对于具有对
14、称正定矩阵 二次函数 , 是QcxbQxfT21)( bQ1*它唯一的极小点证明:令 0)(bxfbQx1*在该点处 正定。xf)(*2命题得证。7.下降迭代算法及其收敛性迭代算法的必要性:求解 的问题可转化为 ,一般地,这是一)(minxfR 0)(xf个非线性方程组,与原问题同等困难,为了避开这一难题,可对原有问题直接采用迭代法。1)下降迭代算法首先给定目标函数 的极小点一个初始估计点 ,然后按一定的规则产)(xf 0x10生一个序列 ,这种规则通常称为迭代算法。kx2) 降迭代算法的收敛性如果迭代算法产生的序列的极限恰好是函数 的极小点,称迭代算法产)(xf生的序列收敛于 。*x3)迭代
15、过程选定初始点 ,置 。0xk按某种 规则确定搜索方向 ,使得 。kp0)(kTpxf按某种 规则确定搜索步长 ,使得t )(kkxft计算 kkptx1若 满足终止准则,停机,否 则置 ,转。 1k4)迭代法中直线搜索求一元函数极小点的迭代法称为直线搜索或一维搜索,即。记为 ,表示从点 出发沿 方向对目标函数 作)(min)(kttpxf),(pxlszxp)(xf直线搜索得到的极小点是 。定理:若目标函数 具有连续的偏导数,并且设 ,则 。)(xf ),(pxlsz0)(pzfT这个定理表明,梯度 必与搜索方向 正交。zp5)收 敛 速度定义 1:对收敛于解 的序列 ,若存在一个与 无关的
16、数 ,当 从*xkxk)1,0(k某个 开始使下式成立:0k *1k则称序列 为线性(或一阶)收敛。kx定义 2: 对收敛于解 的序列 ,若存在一个与 无关的数 和 ,当*xkxk01从某个 开始使下式成立:k0 *1k11则称序列 收敛的阶为 ,或称 阶收敛。kx当 时,称为二阶收敛。2当 时,称为超线性收敛。1一般说来,线性收敛是比较慢的,而二阶收敛则是很快的,超线性收敛居中,如果一个算法具有超线性以上的收敛速度,我们就认为它是一个很好的算法了。6)计 算 终止准则& &11kf 21kx3)(kxf习题:1.设目标函数为 其中 为 对称正定阵。试证:从任意cxbQxfT21)( n点 (但 )出发沿 的方向对 作直线搜索所得的极小点0x0f )(0fp)(xf恰是 的极小点,而且最优步长因子等于 1。Z2.设 在点 处可微,并设 是 中线性无关向量组,试证:1:Rfn0xnp,.2R若 ,),(0ipxlsn,.2则 。问这是否意味着 是 的局部极小。)(0f 0xf