1、第3章 神经网络控制,第2部分 控制基础,3.5 神经网络控制基础,3.5.1 神经网络控制的优越性 神经网络可以处理那些难以用模型或规则描述的过程或系统。 神经网络采用并行分布式信息处理,具有很强的容错性。 神经网络是本质非线性系统,可实现任意非线性映射。 神经网络具有很强的信息综合能力,能同时处理大量不同类型的输入,并能很好解决输入信息之间的互补性和冗余性问题。 神经网络的硬件实现愈趋方便。,3.5.2 神经网络控制的研究领域,基于神经网络的系统辨识 将神经网络作为被辨识系统的模型,可在已知常规模型结构的情况下,估计模型的参数。 利用神经网络的线性、非线性特性,可建立线性、非线性系统的静态
2、、动态、逆动态及预测模型,实现非线性系统的建模和辨识。 神经网络控制器 神经网络作为实时控制系统的控制器,对不确定、不确知系统及扰动进行有效的控制,使控制系统达到所要求的动态、静态特性。神经网络与其他算法相结合 将神经网络与专家系统、模糊逻辑、遗传算法等相结合,可设计新型智能控制系统。,3.5.3 神经网络控制的研究重点,神经网络的稳定性与收敛性问题; 神经网络控制系统的稳定性与收敛性问题; 神经网络学习算法的实时性; 神经网络控制器和辨识器的模型和结构。,3.5.4 神经网络控制系统的结构类型,神经网络在控制系统中的作用:充当对象的模型、控制器、优化计算环节等。 神经网络的结构形式较多,分类
3、标准不统一;对于不同结构的神经网络控制系统,神经网络本身在系统中的位置和功能各不相同,学习方法也不尽相同。 几种实际的神经网络控制系统: 神经网络监督控制; 神经网络直接逆控制; 神经网络自适应控制; 神经网络内模控制; 神经网络预测控制; 神经网络自适应评判控制; 神经网络混合控制。,(1) 神经网络监督控制 神经网络控制器是前馈控制器,建立被控对象的逆模型; 神经网络控制器基于传统控制器的输出,在线学习调整网络的权值,使反馈控制输入趋近于零,从而使神经网络控制器逐渐在控制作用中占据主导地位,最终取消反馈控制器的作用; 一旦系统出现干扰,反馈控制器重新起作用。 可确保控制系统的稳定性和鲁棒性
4、,有效提高系统的精度和自适应能力。,图中, 是的函数,是的函数,是的函数,又是网络权值的函数,因此 最终是网络权值的函数。故可通过使 逐渐趋于0来调整网络权值。 当 =0时,从前馈通路看,有:= = = 1 = , 此时再从反馈回路看,有:= =0。,(2) 神经网络直接逆控制 将对象的神经网络逆模型直接与被控对象串联起来,使期望输出与对象实际输出之间的传递函数为1。缺点:无反馈,用作控制器的神经网络逆模型不准确时,抗干扰能力差,缺乏鲁棒性。 两种改进结构方案:,在开环结构的基础上增加了神经网络2,以实现对于网络1权值的在线调整; 网络1和2映射特性相同(结构相同、权值相同)。 系统通过偏差调
5、整两个网络的权值。当=0时,网络具有对象的逆特性,因为此时意味着= ,故 对网络2: = 1 (); 对网络1: = 1 ( ); 显然, 1 = 1 ( )= ( 1 ( )= 。,用评价函数()作为性能指标,调整神经网络控制器的权值; 当性能指标为0时,神经网络控制器即为对象的逆模型。,(3) 神经网络自适应控制 自适应控制的对象常含未知因素。自校正控制 直接自校正控制 间接自校正控制 模型参考自适应控制 直接模型参考自适应控制 间接模型参考自适应控制 神经网络自校正控制:根据系统正向或逆模型的输出结果调节神经或传统控制器的内部参数,使系统满足给定的指标。 神经网络模型参考自适应控制:闭环
6、控制系统的期望性能用一个稳定的参考模型来描述。 直接自校正:调整的是神经网络控制器本身的参数,本质等同于神经网络直接逆控制。 间接自校正:同时使用常规控制器和神经网络估计器,神经网络估计器主要用来调整常规控制器的参数。,神经网络间接自校正控制假定被控对象为仿射非线性系统:=+ 常规控制器的映射关系通常含有非线性映射关系, 神经网络估计器主要用来逼近非线性函数和,得到 和 ,此时常规控制器的输出为: = ,神经网络直接模型参考自适应控制控制目的:使实际输出跟踪期望输出 。 通过使 最小,调整神经网络的权值。 若 =0,则= ,进而有= ,该量作为神经网络控制器的输入、并产生控制作用。 需要知道对
7、象的数学模型(Jacobian信息 )才能通过误差反向传播算法修正网络权值,但对象通常含有未知参数。,神经网络间接模型参考自适应控制神经网络辨识器向神经网络控制器提供对象的Jacobian信息。,(4) 神经网络内模控制正向模型作为被控对象的近似模型,与实际对象并联; 控制器与对象的逆有关,可以是对象的逆; 滤波器通常为线性的,可提高系统的鲁棒性。 蓝色实线为基本原理图,加上绿色虚线后可构成内模控制的一种具体实现。,3.5.5 神经网络的逼近能力,数学工具 泛函分析; 拓扑学。 重要结论 多层前向传播神经网络不仅可以逼近连续函数本身,还可以逼近函数的导数项。,3.6 非线性系统的神经网络辨识,
8、3.6.1 神经网络辨识基础 概念 辨识:是在输入和输出数据的基础上,从一组给定的模型中,确定一个与所测系统等价的模型。 辨识的三要素: 数据:能量测到的被辨识系统的输入/输出数据,是辨识的基础。 模型类:要寻找的模型的范围,即所考虑系统的结构。 等价准则:辨识的优化目标,用来衡量模型接近实际系统的标准,也称误差准则或损失函数。,神经网络辨识 用神经网络作为被辨识对象的正模型、逆模型、预测模型等,也称为神经网络建模。 说明: 本质上,神经网络辨识的目的是建立所考查对象的模型,因此最简单的情况下,辨识只需利用对象本身的输入输出数据即可。 神经网络建模本身不涉及诸如某一具体控制任务之类的其它目的,
9、因此与作为神经网络控制系统的结构框图相比,辨识的原理结构图要简单得多,只要能完成建模的任务即可;一般地,辨识结构图只涉及对象系统本身和所用的神经网络两大主体。,建模的两种基本情况 前向建模:建立系统本身的模型,也称正向建模; 逆向建模:建立系统的逆模型。 正向建模 指利用神经网络逼近对象本身的动力学特性。 简化结构图: 网络与系统并联; 输出之差用作训练信号; 对网络而言,系统的实 际输出构成了期望的导 师信号,故为有导师学 习;可用多层前馈神经 网络实现;可进行离线辨识,也可进行在线辨识。,逆向建模 一般而言,建立逆模型对神经网络控制意义重大。 直接逆建模简化结构图:可用于离线辨识,也可 用
10、于在线辨识。缺点:不是目标导向的,系统输入也不可能预先定义。实际常采用正-逆建模结构。,正-逆建模辨识的主要目的:建立对象的逆模型; 训练误差性能: = ()或 = ()。 优点:是目标导向的,即训练信号是期望输出与实际输出之差。 一般用于在线辨识。,离线辨识与在线辨识 在线辨识是在对象系统实际运行的过程中进行的,辨识过程要求实时性,即必须在一个采样周期的时间间隔内至少进行一次网络权值的调整;离线辨识则是在取得对象系统的一批输入输出数据后再进行辨识,故辨识过程与实际系统是分离的,无实时性要求。 离线辨识在系统工作前预先完成网络的学习或训练,但输入输出训练集很难覆盖对象所有可能的工作范围、且难以
11、适应系统在工作过程中的参数变化,故最好的辨识方式是:先进行离线训练、再进行在线学习,将离线训练得到的权值作为在线学习的初始权,以加快在线学习的速度。(由于网络具有学习能力,故当被辨识对象的特性变化时,神经网络也能通过不断地调整权值和阈值自适应地跟踪对象系统的变化。) 对于神经网络控制系统,其中的辨识是以系统在闭环控制下所得到的观测数据进行的,因此一般属在线辨识。对于时变系统,则只能使用在线辨识。,神经网络建模的考虑因素 模型的选择 精确性和复杂性的权衡;对神经网络辨识而言,权衡表现为网络隐含层数的选择和隐含层内节点的选择。 权衡的有效途径:进行多次仿真实验。 输入信号的选择 时域上,要求输入信
12、号持续加在系统对象上,以便在辨识时间内充分激励系统的所有模态、反映系统对象的完整动态过程。(这里的输入信号是加在系统上的信号,也将构成神经网络的输入或输出信号) 频域上,要求输入信号的频谱覆盖系统的频谱。 等价准则的选择 等价意味着按照某种误差评价准则,使确定的神经网络模型最好地拟合所关心的被辨识系统的静态或动态特性。,误差评价准则通常是误差的泛函: = 其中,为常数,通常取1或 1 2 ;通常为神经网络的权系数;()通常为平方函数,即: = 2 () ():神经网络模型与系统的广义误差,有不同情形下的定义: 第一种,正向模型辨识 = = ( 1 ),第二种,逆模型辨识 = = 1 ( +1
13、)第三种,广义模型辨识 = 1 2 1 +1,用什么类型的神经网络建模? 对于静态系统,其输入输出间只是某种非线性映射关系,因此可以直接利用前向神经网络进行建模。 对于动态系统,可利用动态神经网络建模,也可利用静态前向神经网络进行建模。一般而言,后者更便于分析,但需要将动态系统的神经网络建模转化为静态系统的神经网络的建模。,神经网络辨识的特点(与传统辨识方法相比) 神经网络本身作为一种辨识模型,其可调参数反映在网络内部的极值上,无需建立实际系统的辨识格式。 借助网络外部的输入/输出数据拟合系统的输入/输出关系,可对本质非线性系统进行辨识。(网络内部隐含着系统的特性) 辨识的收敛速度不依赖于被辨
14、识系统的维数,只与神经网络本身所采用的学习算法有关。 神经网络具有大量的连接,连接权值构成神经网络模型的参数,通过调节这些权值使网络输出逼近系统输出。 神经网络作为实际系统的辨识模型,构成系统的一个物理实现,可用于在线控制。,3.6.2 非线性静态系统的神经网络辨识,静态系统:也称稳态系统,指系统的各状态变量不随时间变化。 静态系统输入输出间的关系,实际上就是一个非线性映射关系,故可用前馈神经网络进行学习。 具有维输入矢量和维输出矢量的非线性静态系统的输入输出关系: 1 = 1 1 , 2 , = ( 1 , 2 , ),静态系统中,两种常见的神经网络辨识结构: 第一,每个非线性方程分别构造一
15、个神经网络。假设对应于第个方程的神经网络输出为 ,则调整网络权系数的误差评价函数为 = 1 2 2 = 1 2 2 其中, 为第个神经网络的权系数。 第二,仅用一个神经网络构成静态系统的神经网络模型,用神经网络的输出矢量为 逼近系统的实际输出矢量= 1 , 2 , ,调整权系数的误差评价函数为 = 1 2 =1 2 = 1 2 =1 2,3.6.3 非线性动态系统的神经网络辨识,动态系统建模的两类网络 直接使用动态神经网络,分析相对复杂; 将动态系统的神经网络辨识转化为静态系统的神经网络辨识,简单、常用。 转化方法 假定动态系统可由下列差分方程表示: +1 = , 1 , +1 ; , 1 ,
16、 +1 将右边非线性函数中不同时刻的所有变量 , 1 , , +1 , , 1 , +1 全部看做自变量、而将(+1)看做因变量,则表示系统动力学变,化规律的就变成了一个非线性的静态映射;利用神经网络建立系统本身的模型就等价于逼近未知非线性映射。 若可逆,则: = 1 , 1 , +1 ,(+1); 1 , +1 其中,(+1)是时刻的未来值,故用期望值 (+1)代替,即得动态系统的逆模型: = 1 , 1 , +1 , (+1); 1 , +1 利用神经网络建立系统的逆模型时就等价于逼近未知非线性 1 ,其中 神经网络的输入: , 1 , +1 , (+1), 1 , +1 ; 网络输出:(
17、)。,动态系统神经网络辨识的两类网络导致两种辨识模型:,(1) 并列模型 +1 = , 1 , +1 , , 1 , +1 输入到神经网络的量包含了网络本身输出的过去值,即网络含到自身的反馈,故所用网络为动态神经网络。,(2) 串联并列模型 +1 = , 1 , +1 , , 1 , +1 网络自身不含反馈,可采用BP算法调整权系数。 可使辨识过程简化,收敛性较好,一般场合均采用。,典型非线性动态系统的几种模型 关于过去时刻的输出是线性的 +1 = =0 1 () + , 1 , +1 关于过去时刻的输入是线性的 +1 = , 1 , +1 + =0 1 (), 过去时刻的输出和过去时刻的输入
18、可分离 +1 = , 1 , +1 + , 1 , +1 过去时刻的输出和过去时刻的输入不可分离 +1 = , 1 , +1 ; , 1 , +1 其中,,为非线性函数;系统本身的阶次,已知;输入输出数据 ,=0,1, 与 ,=0,1,可测量。 采用串联并列模型处理问题。,辨识方法 对于模型, 线性部分的参数已知:仅需用神经网络辨识非线性部分,; 线性部分的参数未知:对线性部分可借助传统的最小二乘辨识法,对非线性部分则用神经网络辨识出,。 对于模型, 输入输出无特殊性; 利用一个多层前馈网络即可; 网络输入:模型方程右边的+个时刻的输入输出数据; 网络输出:(+1)。,对于模型, 过去时刻的输
19、入输出可分离; 可利用一个多层前馈网络,等同于模型的辨识; 也可对分离的两部分同时使用两个前馈网络,假定网络的串联辨识模型如下: +1 = , 1 , +1 + , 1 , +1 其中,网络 和 分别用以逼近系统的非线性函数和。,网络 的输入: , 1 , +1 ; 网络 的输入: , 1 , +1 ; 网络 与 的期望输出均未知,但期望输出之和 + 可测量,即(+1)。这两个网络不能同时独立使用,需共用同一期望输出。 网络 与 的实际输出格式均与系统的输出(+1)相同。,模型的算法: 假定两个前向传播网络的层数均为; 对于给定的P组样本矢量 , ,=1,2,,误差性能指标为: = 1 2 =
20、1 o 1 + 2 2 = =1 其中, 1 为第一个神经网络输出层的第个神经元, 2 为第二个神经网络输出层的第个神经元; o 为两个网络输出层的神经元个数,也即系统输出矢量的维数。 基于梯度下降法,并考虑误差反向传播算法,可以同时得到两个网络的权值修正公式:,对输出层: 1 = 1 + 2 1 1 2 = 1 + 2 2 2 对于第个隐含层: 1 = 1 1 1 +1 1 +1 2 = 2 2 2 +1 2 +1 其中,对各网络第+1层的所有神经元求和。 权值修正公式: 1 = 1 1 1 2 = 2 2 2 注:上标中的1、2表示第1、2个神经网络,()表示网络的第层。,例11:考虑如下
21、非线性动态系统 +1 = () 1+ 2 () + 3 () 采用双模型法解决该系统的辨识问题。 解:取 = () 1+ 2 () = 3 ()则系统可写为: +1 = + 分别用两个神经网络 和 来逼近 和 ,则神经网络的辨识模型为: +1 = + 两个网络均为单输入单输出网络。,选取具体结构为1-6-2-1型,则利用上面的学习算法可得到仿真结果为若使用一个神经网络,结构为2-20-10-1型,仿真结果为,150次迭代,误差达0.0133,300次迭代,误差达23.06,3.7 神经网络控制的学习机制,神经网络控制器的特殊性: 控制器的样本信息通常无法预先知道(如:控制器的期望输出通常是系统
22、的最佳控制量,一般无法通过测量获得)。 解决控制器的学习问题是关键。 神经网络控制器的学习: 就是寻找一种有效的途径进行网络连接权阵或网络结构的修改,从而使得网络控制器输出的控制信号能够保证系统输出跟随系统的期望输出。,神经网络控制器的学习类别 (1) 监督式学习(有导师指导下的控制网络学习) 外界提供适当形式的导师信号,学习系统根据导师信号与相对应的实际输出量之差调节网络参数。 离线学习法 在线学习法 反馈误差学习法 多网络学习法 (2) 增强式学习(通过某一评价函数指定下的学习) 无导师信号,按照环境所提供数据的某些规则或适当的评价函数调节网络参数。,(2) 再励学习(强化学习) 介于上述
23、两种情况之间,外部环境只对输出结果给出评价,而不给出具体答案,学习系统通过强化那些受奖励的动作来改善自身的性能。离线学习 对一批实现给定的系统输入输出样本数据进行离线学习,建立系统的一个逆模型,然后用此逆模型进行在线控制。,离线学习(建模),在线控制,适合静态环境,缺点: 导师信号()应遍及整个控制域,才能保证网络能最大范围地逼近系统的逆模型,而实际上很难构造这样的导师信号。 这种控制系统在环境或对象特性发生变化时无法使用,因离线学习结束控制器的学习能力即停止。 性能 2 的极小不能保证 2 的极小。,在线学习学习目的:找到最优控制量,使系统输出趋于期望输出 。 非线性系统: ()=( 1 ,
24、 ,(1),(); 性能指标:()= 1 2 ()() 2 最速下降法调整权值: =( ) () (1) (1) 适合模型已知的动态环境。,反馈误差学习动机:解决模型未知情况下的神经网络学习。 :反馈误差;训练网络。 训练中,神经网络控制器逐渐占主导地位,反馈仅用来克服扰动。 网络训练中不涉及系统的动态性能,可能导致学习不收敛。适用于非线性系统线性绝对占优条件下的网络学习。,多神经网络学习(1)在神经网络控制器的学习过程中以及控制系统的实时控制过程中,辨识器 均可不断学习,以不断提高模型精度。 利用前向模型实现系统误差信息的反向传播,完成网络控制器的学习。 的精度影响 的控制性能; 学习过程的
25、收敛性和收敛速度有待深入研究。,前向建模多神经网络学习,多神经网络学习(2)动机:解决模型未知情况下的神经网络学习。期望输出 作为逆模型的输入 产生期望的控制信号 与实际的网络控制器 的输出信号比较 产生的误差作为神经网络控制器 的学习信号。,逆向建模多神经网络学习,3.8 神经网络控制器的设计,直接逆模型神经网络控制器的设计 直接神经网络控制器的设计 多神经网络自学习控制器的设计,3.8.1 直接逆模型神经网络控制器的设计,基本思想:假设被控系统可逆,通过离线建模得到系统的逆模型网络,然后用这一逆模型网络作为控制器去直接控制被控对象。 SISO系统模型: +1 = , 1 , +1 ; ,
26、1 , +1 逆系统: = 1 +1 , , 1 , +1 ; 1 , +1 ,用期望值 (+1)代替时刻的未来值(+1),得动态系统的逆模型: = 1 +1 , , 1 , +1 ; 1 , +1 将右边的+个时刻的输入输出值作为前向网络的+个输入、并记为,将左边的输入值()作为网络的期望输出,则网络具有+个输入神经元和1个输出神经元。 离线建模,使用批处理训练方式。,假定:已测得动力系统的以下数据序列 , 1 , 1 , 2 , +1 , 则可构造出到时刻为止网络的组输入样本: = +1 , , +1 , 1 , +1 网络的期望输出为: =() 其中,=1,2,。,性能指标取为: = 1
27、 2 =1 () 2 其中, 0 1 2 1。 注意:样本数量决定了学习中所涉及到的离散时刻数;上式表示希望使网络的实际输出能同时在个时刻上都尽可能接近系统的实际输入(导师信号)。 直接利用批处理BP算法即可离线训练出网络的权值。,建立逆模型时神经网络的训练示意图,直接逆模型网络控制器的控制系统结构示意图 (运行于静态参数环境),3.8.2 直接神经网络控制器的设计,引入在线学习机制调整神经网络控制器的权值,提高自适应能力。 例12:考虑被控系统 +1 = 1 2 1 1 1 +() 1+ 2 1 + 2 (2) 假设动力学逆模型成立,为 ()=(+1),(),(1),(2),(1) 试用直接
28、神经网络控制器进行控制。,解: 构造神经网络结构为5-25-12-1型;直接神经网络控制器的系统结构图为: 输出单元线性激励,其余层单元Sigmoid型激励;,控制性能指标: ()= 1 2 2 学习规则: +1 = ()+ =( ) () (1) =( ) 1 1+ 2 2 + 2 (3) = 1 +1 +1 取:=0.05; 期望输出: = sin 2 100 +0.2 sin 6 100 ;,100个周期的学习后,均方误差小于0.005,仿真结果:,Jacobian矩阵的替代方法: (1) 摄动法 用 代替 ,采样周期短时可行。 (2) 符号函数法 用 代替 ,简单实用。 对大多数系统,
29、输出随输入变化的趋势易于知道。 (3) 前向神经网络建模仿真法 利用另一神经网络、以仿真方式对系统进行正向建模,得到系统的Jacobian矩阵信息。 (4) 多神经网络自学习控制法 利用另一神经网络(辨识器)在线建立系统的逆模型,并利用期望输出产生期望的控制信号作为导师信号,实现神经网络控制器的有导师学习。,3.8.3 多神经网络自学习控制器的设计,基本思想: 利用未知系统的逆模型和系统的期望输出 (+1)构造一个期望的控制量 (),以解决神经控制器 在系统模型未知情况下学习的无导师问题。原理(结构图见下页): 通常先将神经网络辨识器 进行离线训练,建立未知对象的大概模型,然后连入系统、并和神
30、经网络控制器 一块进行在线训练;在每个采样周期内,首先将开关合上,利用误差信息 ()对 的权系数学习并调整一次,然后将开关拉下利用误差信息 ()对 的权系数学习并调整一次;如此往复不断,直到系统的实际输出(+1)能以期望精度跟踪期望输出 (+1)为止。,学习规则(结合结构图): (用作辨识器建立未知对象的逆模型): = () = () = 1 +1 +1 = 1 + (1) 其中, ()为矢量 ()的第个分量。, (辨识器 提供期望的控制量): = () = () = 1 +1 +1 = 1 + (1) 其中, ()为矢量 ()的第个分量; , 分别为两个网络的学习因子; , 为动量因子。,例
31、13:对例12中的系统,试用多神经网络自学习控制方法来设计此系统的非线性控制器,要求系统的期望输出为: = sin 2 100 , =0,1,100 解:假定系统的逆动力学存在,即 ()=(+1),(),(1),(2),(1) 两个前向网络非别选择为 :5-25-12-1 :6-20-10-1 输出神经元均为线性激励函数。,根据前面的工作原理和学习算法,可以得到仿真结果为,100个周期的学习效果,误差1%,多神经网络自学习控制特点概括: 边控制边辨识。利用实际系统的输入输出信息更新网络辨识器的权系数,不断提高对被控对象的准确识别;利用期望输出 、经神经网络逆模型得到期望的控制量,使得基于广义D
32、elta学习规则的神经网络控制器的权系数调节得以实现。 整个系统具有在线辨识、实时控制的能力,能满足环境或系统参数变化情况下的控制性能,具备良好的自适应、自学习能力。 缺点是要求被控对象的动力学特性是可逆的。,思考与习题,神经元的种类有哪些?其输入输出间的函数关系如何? 神经网络按连接的拓扑结构和信息流向分别应该如何分类?简述每一类型的特征。 如何理解有导师学习与无导师学习? 如何理解神经网络的泛化能力? 基本BP算法的思想是什么?训练样本的流程如何?主要优点和缺点是什么? 动态Hopfield网络处理问题的重点是什么?简述DHNN网络用于联想记忆时的两个阶段及其任务?,神经网络控制的研究领域包括哪些? 神经网络辨识的两种基本情况是什么?对于一个给定的未知系统,如何选择神经网络进行建模? 神经网络控制器有导师学习的重点是什么? 结合神经网络控制在线学习方法的结构图,论述在线学习的思想和系统应满足的条件。 结合多神经网络自学习控制器的结构图,说明多神经网络自学习控制系统的基本思想、原理和特点。,