1、关于前馈网络的综述,引言 神经网络计算的最显著的能力是能够进行监督式学习(supervised learning),而能逼近任意Borel可测函数的多层前馈(feedforward)网络则是实现这种学习的典型网络。作为前馈网络的代表,反向传播网络(BP)在1986年的文献提出后,因其概念的清晰和简单而引起了广泛注意;另一方面,作为网络学习的一种优化算法,误差的反向传播机理早在1974年文献就已发现,可惜未引起注意,因此,Werbos 认为,BP称为多层感知器 (MLP)更为合适。 MLP的两个最明显的弱点是缓慢的收敛速度和对数法参数(如学习因子) 的依赖性。自MLP问世以来,许多研究试图通过对
2、训练算法的进一步优化以解决上述,问题,多数被冠以“加速技术”,引入了诸如递推最小二乘法,共轭梯度法和扩展Kalman滤波等技术;与此同时,不少学者将MLP与各自的背景相结合,对前馈网络的结构进行了改造,提出了诸如子波网络,模糊网络和径向基函数等网络。 与围绕MLP的研究相对照的是关于CMAC的研究。CMAC能进行快速学习并具有某种程度的插值和逼近能力,但是,在1975年由Albus提出后的很长一段时间内被忽视了,直到近年来才逐步得到重视,其中,最具有代表性的工作是由Miller等从1987年开始的关于机器人控制的研究,其他研究如过程控制,及学习收敛性的分析。 训练算法,网络结构,和输入信息的表
3、达是影响前馈网络学习性能的三个主要因数,输入信号的表达,决定着网络和训练样本集的大小,通常,在保证样本的特征性前提下应使样本数尽量减少,以使训练更容易进行。一旦样本集确定,训练算法和网络结构就成为决定网络性能的内在因素。下面将从这两个方面对前馈网络进行阐述和分析。,1 训练算法,MLP的训练算法可分为两种,即批处理模式(batch-mode)和顺序处理模式(sequential-mode)。在批处理模式中,权值的修正只在对 训练样本集中的所有样本都处理过才进行,而顺序处理是对样本进行逐个学习,所以,有时也称为“在线学习”模式。 无论批处理还是顺序处理,都要用到误差性能指标(E)的梯度,其中,(
4、E)是指网络实际响应与期望输出之间的差异,通常用对各个样本的误差的平方和来表示。,1.1 批处理算法,优化算法的一种常用分类方法是根据“阶”来确定,即 的导数的阶次。第一类算法只用到 本身而毋需导数信息,如“多面体 (polytope)”算法,其主要问题是如何使多面体不退变;第二类也称一阶算法,用到 的一阶导数,典型例子是“最速下降法”和共轭梯度法.二者都近似线性收敛,但后者的收敛速度更快些,共轭梯度法的一个主要优点是不需要诸如学习因子等训练参数;第三类是以牛顿法为代表的二阶算法,由于需要计算复杂的Hessian矩阵,因而应受到限制,于是有学者提出用修正的Cholesky分解法来构造不确定的H
5、essian矩阵以简化计算。,由于求解二阶导数通常比较复杂且比较费时,于是就有了一些简化算法,如正割法 (或称准牛顿法)和一步正割法(OSS),其中,OSS法可以说是正割法与共轭梯度法的一个折中。另外,为改善算法的全局收敛性,“跳蛙”(leap-frog) 算法提供了一种可避开局部最优的基于梯度法的优化算法。,1.2 顺序处理算法,在这种模式中,网络权值的修正是随着样本的逐个出现而逐步进行的,因而,各样本或多或少会有些误导作用,所以,在很大程度上可以说是随机梯度下降法的变形。顺序处理法的关键问题是,每一次权值的修正应该多大才能使 下降的“步长”最为合适?如果“步长”不够小,在总体上反而会上升,
6、但若太小,收敛时间又会很长。为解决这个问题,Barnard认为有以下三种途径: 训练的不同时刻采用不同的步长,并自适应调整; 对不同的网络参数 (如权值)采取不同的修正步长; 引入“动量项(momentum)”。,实际情况是,这几种方法常常混合一起使用,而且,大多数顺序处理方法都能很方便地用于对样本集的批处理。另外一些有效的算法如采用递推最小二乘和扩展Kalman滤波的训练算法。,2 网络结构,自MLP和CMAC问世以来,许多学者从各个不同的领域出发,提出了一系列的网络模型,比较典型的有,高阶网(HONN),函数连接网( FL),随机向量函数连接网(RVFL),幂级数网(POWER),径向基函
7、数网( RBF),模糊神经网络(FNN),子波网(WLN),和部分连接的多层感知器(PCMLP)等,上述各种网络的发展框架可用图(1)来说明。,图1 前馈网络的发展框架,感知器,CMAC,MLP,FL,RBF,FNN,WLN,POWER,PCMLP,HONN,RVFL,2.1 MLP,CMAC与PCMLP,MLP和CMAC都源于感知器(perceptron). MLP和CMAC在结构和算法上都有较大差异。结构上: 前馈网络的两种不同的设计思想,全局性设计和局部性设计, MLP全局性网络的代表,输出受所有权值的影响,因而学习缓慢而较适合于对固定样本集的学习; CMAC作为局部性网络的代表,输出在
8、任何时刻只与部分权值(即一个子网络)相关,所以学习较快而更适合于实时控制。,当样本在局部区域存在较大差异时,MLP的训练通常变得困难,而CMAC则能较好地处理这种学习的局部性问题。 在算法上MLP实现从输入到输出的“一到一”的映射,而CMAC的每个子网络只能实现从每个输入子空间到输出的“多到一”的映射,这是一种类似于A/D转换的映射关系,因而存在着“分辨率(resolution)”的问题。,PCMLP (Partly Connected Multi-Layer Perceptron) 是结合MLP和CMAC的各自特点而提出的 它由多个既相互关联又相对独立的子网络构成。PCMLP采用类似于CMA
9、C确定存储单元地址的方法来确定各子网络的隐单元在整个隐含层中的位置,而各子网均采用MLP或其变形。这样,从整体上讲,PCMLP是一种局部性网络,而对各个输入子空间又实现“一到一”的映射,因而在对固定样本集和对复杂系统的学习控制中都表现出良好的学习性能。,2.2 HONN与FL,RVFL,和POWER网,常规的前馈网络(如MLP)的内部表达形式均采用一阶节点并使用诸如反向传播算法的学习规则,其第I个节点的输出可由下式表达: 其中,x=X(j)是输入向量,W(I,j)代表权值,N是输入变量个数,而 则为sigmoid函数。HONN采用如下式表示的高阶节点,,FL,RVFL,和POWER网都源于高阶
10、网络,但其结构都与常规的MLP有所不同。在图2所示的网络中,原先的隐含层都下移作为增强的输入节点,并且在原来的输入节点和输出节点之间增加了直接联结。 FL最初是为了学习时间顺序而设计的。图2中,Xk代表第K时刻的状态。网络输出为, RVFL则是在FL的基础上,引入随机向量理论而构造的,网络的输出为, 其中, 为第个个输出节点相关的极向量, 为互相增强节点的阀值, 为sigmoid函数,与常规网络的不同之处在于,增强节点的参数向量 不是通过学习而是随机产生的。,图2 FL、RVFL和POWER网的原理图,+,POWER网的基本思想是,通过一个幂级数展开式来表示任意一个函数,输入节点的个数就等于该
11、展开式的项数所以,对于一个具有两个输入变量的系统,若用二阶幂级数表示,那么其输出为, 由于都用到高阶节点,并且采用相同的网络结构,所以,FL,RVFL,和POWER网表现出很大的相似性。,2.3 RBF,FNN和小波网,这三种网络是从不同的背景提出的。小波网络(WLN)基于小波(wavelet)变换理论,并采用BP类的学习方法;FNN基于模糊集合理论,是模糊规则的网络化表现;关于RBF的出处,有一些不同的看法,poggio等认为RBF源于经典逼近理论中的调整(regularization)算法,而现在通常说的Gaussian型的RBF只是一种特例,Amari则认为RBF和MLP同属随机梯度下降
12、法。 尽管源于不同的理论,产生于不同的年代,但是,无论在结构和算法上,它们都表现出极大的相似性。 一维情况。当只有一个输入变量时,这三种网络都可以用图(3)来表示(图中只保留x1),它们的前向计算法如下:,RBF: FNN: WLN: 其中,对于RBF和FNN,取为零。显然,对于一维情况,三者的差别仅在于激发函数的略为不同,RBF和FNN都采用“Gaussian型函数,且在FNN的一个扩展形式ANFIS中,激发函数同样可取为(7)的形式,而WLN则采用Gaussian的导数”形式。,图 (3) RBF和WLN原理图,+,gi,二维情况。当有两个输入变量时,RBF和WLN仍采用图(3)的网络结构
13、,而FNN的结构就不同了。如图(4)所示,如果变量x1和x2分别有N1和N2个模糊子集,那么,总的隐节点数,也即模糊规则总数N就是, 如果x1的第i个子集与x2的第k个子集构成第j条规则,那么, 其中, 和 仍采用式(8)的形式,为模糊算子,可以为“与”,“或”,或者“算术乘”等。RBF和WLN的隐节点个数就不存在式(10)所示的关系,其第j个隐节点的输出表示为, 其中, 仍为式(7)和式(9)的形式,“”为算术乘。,图4 FNN原理图(二维),gjk,gji,gi,+,多维情况。当有三个或以上的输入变量时,由于子波变换基函数选折的困难,因而子波网未见应用报导,而RBF和FNN则是二维情况的推
14、广。FNN的扩展形式有ANFIS和弹性模糊逻辑(EFL),有关RBF的新的研究是关于其中心点的个数和分布方面的工作。RBF,FNN和子波网代表着一类采用具有中心点的激发函数(Gaussian及其导数)的局部性网络,因而能较好的处理样本在局部区域的突变性,这是采用sigmoid函数的MLP的不足之处。中心点和模糊子集的引入,其实是将输入空间进行子空间的划分,这与前面介绍的CMAC和PCMLP有很相似,因而充分考虑网络的局部性,对改善学习性能是有益的。,3 讨论,从训练算法和网络结构两方面对前馈网络进行了介绍和分析,由于资料和篇幅的局限,不可能涉及全部,而只能就其最具代表性的进行讨论。另外,只适合
15、于模糊识别的网络也不在讨论范围之内。目前,前馈网络研究所需考虑的问题主要有以下几个方面: 现行的各种优化算法缺乏生物学依据。目前普遍认为,生物学上的神经网络并不实行“反向传播”,并且,对学习中是否有一个优化过程也尚不清楚。这就引出这样一个问题,既人工神经网络是否要与自然神经网络完全一致?如果可以不一致,那么就给研究者更多的自由度去探寻各种优化算法;,训练过度(overtraining)问题。这是指,网络参数和训练次数的增加有时反而使训练结果变差,这就需要从算法的优化和训练过程的监控等方面去解决; 训练算法与网络结构的融合发展。现在众多的优化算法几乎都是针对MLP提出的,而各种新的网络模型都采用最简单的训练算法,如delta规则和BP算法等,这一方面说明,网络结构的改造往往比算法的优化更有益,另一方面也说明针对新的网络结构开发新的算法的重要性; 网络结构的进一步优化。Werbos认为,可以寻找一种得益于全局性和局部性这两种设计思想的混合结构;另外,从本文的介绍也可以看到,局部性网络的进一步研究以及在网络设计中充分考虑局部性问题,也将有助于网络学习性能的改善。,