1、1,第八章 基于数学原理的神经网络,除了的多层感知器外,径向基函数神经网络(Radial Basis Function Neural Network,RBF网)是另一类常用的3层前馈网络,也可用于函数逼近及分类。与BP网相比, RBF网结构更简洁,学习速度也更快。 本章介绍RBF网的结构、工作原理和常用学习算法。,2,8.1径向基函数RBF,8.1.1 基于径向基函数技术的函数逼近与内插 对于RBF网络工作原理的理解可基于2种不同的角度: 当用RBF网络解决非线性映射问题时,用函数逼近与内插的观点来理解; 当用RBF网络解决复杂的模式分类任务时,用模式可分性观点来理解。,3,1963年Davi
2、s提出高维空间的多变量插值理论。径向基函数是20世纪80年代后期Powell解决多变量有限点插值问题时引入的。设N维空间有P个数据点 Xp ,p=1, 2, , P ,在输出空间相应的目标值为dp,p=1, 2, , P。插值问题是寻找一个非线性映射函数F(X),使其满足下述插值条件 F(Xp)=d p, p=1, 2, , P (8.1) 式中,函数F描述了一个插值曲面。严格插值或精确插值:是一种完全内插,即该插值曲面必须通过所有数据点。,4,选择P个基函数,每一个基函数对应一个训练数据,各基函数的形式为, p=1, 2, , P (8.2),基于径向基函数技术的插值函数定义为基函数的线性组
3、合,(8.3),Xp,5,(8.4),6,令 ,i=1, 2, , P,p=1, 2, , P,则上述方程组可改写为,(8.5),7,令表示元素为ip的PP阶矩阵,W和d分别表示系数向量和期望输出向量,式(8.5)还可写成下面的向量形式,(8.6),式中称为插值矩阵。若为可逆矩阵,就可以从式(8.6)中解出系数向量W,即,(8.7),8,3种常见的径向基函数,9,10,(1) 由于插值曲面必须通过所有训练数据点,当训练数据中存在噪声时,神经网络将拟合出一个错误的插值曲面,从而使其泛化能力下降。(2)由于径向基函数的数量与训练样本数量相等,当训练样本数远远大于物理过程中固有的自由度时,插值矩阵求
4、逆时可能导致不稳定。,11,8.1.2 正则化RBF网络,能够实现完全内插的输入- 输出映射函数有很多,若输入- 输出映射函数是光滑的,则问题的解是连续的,意味着相似的输入对应着相似的输出。,正则化理论表明,当映射函数F(X)的基函数为Green函数时,可保证函数的光滑性。,Green函数的一个重要例子是多元Gauss函数,定义为,1、正则化RBF网络的结构与特点,12,正则化RBF网络,13,当采用正则化RBP网络结构时,隐节点数即样本数,基函数的数据中心即为样本本身,参数设计只需考虑扩展常数和输出节点的权值。,2、RBF网络常用学习算法,(1). 径向基函数的扩展常数,14,(2). 输出
5、层的权值, 只要得到插值矩阵,即可由上式解出W。,将所有样本输入一遍,即可得到矩阵 。,15,8.1.3模式可分性观点与广义RBF网络,若N维输入样本空间的样本模式是线性可分的,总存在一个用线性方程描述的超平面,使两类线性可分样本截然分开。若两类样本是非线性可分的,则不存在一个这样的分类超平面。但根据Cover定理,非线性可分问题可能通过非线性变换获得解决。,1、模式的可分性,16,Cover定理:将复杂的模式分类问题非线性地投射到高维空间将比投射到低维空间更可能是线性可分的。,17,设有一组函数构成的向量 ,将N维空间的P个点映射到M维空间(MN) ,如果在该M维空间存在M维向量W,使得,则
6、由线性方程WT(X)=0确定了M维空间中的一个分界超平面。,18,2、 广义RBF网络,由于正则化网络的训练样本与“基函数”是一一对应的。当样本数P很大时,实现网络的计算量将大得惊人。为解决这一问题,可减少隐节点的个数,即 N M P N为样本维数, P为样本个数,从而得到广义RBF网络。,19,广义RBF网络的基本思想是:用径向基函数作为非线性变换函数,构成隐层空间。隐层对输入向量进行变换,将低维输入空间的模式变换到高维隐层空间内,使得在低维空间中线性不可分问题在高维空间中变得线性可分。,20,广义RBF网络,21,广义RBF网络与正则化RBF网络有以下几点不同: 径向基函数的数目M与样本数
7、P不相等,且MP。 径向基函数的中心不再限于数据点,由训练算法确定。 各径向基函数的扩展常数不再统一,其值由训练算法确定。 输出函数的线性中包含阈值参数,用于补偿基函数在样本集上的平均值与目标值之平均值之间的差别。,22,3、 广义RBF网络设计方法,根据数据中心的取值方法,RBF网的设计方法可分为两类。,第一类方法:数据中心从样本输人中选取。一般来说,样本密集的地方中心点可以适当多些,样本稀疏的地方中心点可以少些;若数据本身是均匀分布的,中心点也可以均匀分布,总之,选出的数据中心应具有代表性。,第二类方法:数据中心的自组织选择。常采用各种动态聚类算法对数据中心进行自组织选择,梯度训练方法、资
8、源分配网络(RAN)法,等等。,23,K-means聚类算法确定数据中心,初始化。选择M个互不相同的向量作为初始聚类中心: 。,计算输入空间各样本点与聚类中心点的欧式距离,4、 广义RBF网络数据中心的聚类算法,24,相似匹配。令 代表竞争获胜隐节点的下标,对每一个输入样本 根据其与聚类中心的最小欧式距离确定其归类 ,即当,时, 被归为第 类,从而将全部样本划分为M个子集: ,每个子集构成一个以聚类中心为典型代表的聚类域。,25,更新各类的聚类中心。对各聚类域中的样本取均值,令Uj(k)表示第 j个聚类域, Nj 为第 j 个聚类域中的样本数,则,将k值加1,转到第步。 重复上述过程直到的改变量小于要求的值。,26,各聚类中心确定后,可根据各中心之间的距离确定对应径向基函数的扩展常数。令,则扩展常数取,为重叠系数。,27,利用聚类算法得到各径向基函数的中心和扩展常数后,混合学习过程的第二步是用有监督学习算法得到输出层的权值。 最小均方算法(LMS) 伪逆法直接计算 梯度下降算法,28,隐层输出矩阵为 RBF网络的待定输出权值为网络输出向量为,29,W可用 的伪逆 求出,30,8.1.4 RBF网络与多层感知器的比较:,隐层数 隐层和输出层神经元模型 隐层和输出层激活函数 激活函数的自变量 基 全局逼近与局部逼近,