1、.摘 要识别活动是人类的基本活动,人们希望机器能代替人类进行识别工作,因此模式识别的理论和方法引起了人们极大的兴趣并进行了长期的研究,现已发展成一门多学科交叉的学科。人工神经网络能较好地模拟人的形象思维,而且由于具有大规模并行协同处理能力、较强的容错能力和联想能力以及较强的学习能力,所以将神经网络方法运用到模式识别中去解决识别问题己成为国内外科技工作者广泛关注的热点。本文首先对模式识别、神经网络的发展概况以及应用神经网络来进行模式识别作了较为详细的介绍,然后分析了模式识别的一些基本概念、方法,指出了其困难和要求,同时给出了神经网络进行模式识别的方法。本课题我们将利用 BP 神经网络对基因数据进
2、行分类,通过测试得到有三组数据,每组数据均有 20 个样本,且每一组样本具有共同的特性,并具有其特有的特性,每个样本具有 114 个数据,已知一组 20 个样本具有癌症特性,而另一组 20个样本具有正常的特性,通过神经网络模型将第三组模型进行训练,做模式分类从而来判断其具有的特性。关键词:模式识别;人工神经网络;BP 神经网络; .第一章 前言1.1 引言近年来,随着基因技术在医学中的广泛应用,基于基因数据的计算机辅助诊断迅速发展起来。计算机辅助诊断可以提高医生诊断的准确率,协助医生对病人病因进行判断和识别并有助于预防疾病。在特征提取的基础上进行模式分类是基于基因的计算机辅助诊断的重要步骤,如
3、人工神经网络等分类方法已广泛的应用于疾病诊断及预防系统之中。人工神经网络的研究已有半个多世纪的历史,起源于 20 世纪 40 年代,20 世纪 80 年代开始蓬勃发展,如今出现了研究的新热潮.人工神经网络的研究主要是直接模拟人脑的结构和功能,具有生物神经网络的某些特性,在自学习、自组织、联想、及容错方面具有较强的能力,能用于联想、识别和决策.概率神经网络是 20 世纪 90 年代初提出来的一个分类网络,它以贝叶决策和密度函数估计为理论基础,广泛应用于模式识别和模式分类领域.因此,研究概率神经网络的模式识别具有重要的理论意义和应用前景。1.2 人工神经网络的发展及研究现状人工神经网络(Artif
4、icial Neural Network),亦称为神经网络(Neural Networks,NN),是由大量神经处理单元(神经元 Neurons)广泛互连而成的网络,是对人脑的抽象、简化和模拟,反映人脑的基本特征。人工神经网络的研究是从人脑的生理结构出发来研究人的智能行为,模拟人脑信息处理的功能。人工神经网络能模拟人类大脑的某些功能和思维方式,从而更好地解决模式识别、组合优化和智能控制等一系列本质上非计算的问题。它有如下优点:具有很强的自学习和自适应能力,可以处理不确定或不知道的系统;具有很强的信息综合能力,能同时处理定量和定性的信息,能很好地协调多种输入信息关系;具有很强的鲁棒性和容错性,因
5、为信息是分布贮于网络内的神经元中;采用并行处理方法,使得计算快速;可以充分逼近任意复杂的非线性关系等。经过近半个世纪的发展,神经网络理论已在许多研究领域取得了广泛的成功,神经网络和其它算法的结合和交叉,构造混合神经网络模型,是当前神经网络研究的主要趋势。如神经网络和模糊逻辑结合,建立模糊神经网络;将混沌理论和神经网络结合建立混沌神经网络;将优化算法和神经网络结合,利用优化算法优化神经网络的结构或权值;将小波分析和神经网络结合建立小波神经网络;贝叶斯学习以及粗糙集理论和神经网络结合等,都是当前神经网络研究的热点。到目前为止,神经网络的类型已多达数百种,神经网络的理论研究和实际应用有了引人注目的发
6、展。神经网络在向纵深发展的同时,也在向模糊技术、进化计算等智能方法相结合.的方向上发展,并广泛应用于模式识别等多个领域,尤其是在模式识别方面,神经网络所表现出来的能力超过了包括统计方法、静态方法和人工智能方法在内的传统方法。1.3 研究意义神经网络通俗来讲,就是人们平时所说的“人工智能” 。这个词是神经网络在人类大脑上历史基础的结果。神经网络是基于人类大脑工作的简化模型-这就解释了与人脑相关的神经网络术语。例如,神经网络是经过训练的,而训练的过程被称为“学习“ 。神经网络,例如多层的感知器,甚至使用被称为“神经元“ 的内部结构,神经细胞由此接收输入并且以不同的强度发射信号。人工神经元网络是生物
7、神经网络的一种模拟和近似,它从结构、实现机理和功能上模拟生物 神经网络。从系统观点看,人工神经元网络是由大量神经元通过极其丰富和完善的连接而构 成的自适应非线性动态系统。模式识别是一种从大量信息和数据出发,在专家经验和已有认识的基础上,利用计算机和数学推理的方法对形状、模式、曲线、数字、字符格式和图形自动完成识别的过程。模式识别包括相互关联的两个阶段,即学习阶段和实现阶段,前者是对样本进行特征选择,寻找分类的规律,后者是根据分类规律对未知样本集进行分类和识别。广义的模式识别属计算机科学中智能模拟的研究范畴,内容非常广泛,包括声音和语言识别、文字识别、指纹识别、声纳信号和地震信号分析、照片图片分
8、析、化学模式识别等等。在现实世界中,人类发出的声音、印刷或者书写出的文字、眼睛看到的风景,以及测量器输出的信号等,以各种各样的模式存在着。如果计算机能够听出并且分辨出这些模式,就能够简单地输入到计算机,并且可以送到工专业人员的作业负担。把模式输入到计算机后,通过一系列的处理,就可对其进行识别。在模式识别中有很多方法:统计模式识别方法,句法结构模式识别,人工神经网络模式识别。前面两者在实际应用过程中都显示出各自的局限性,而人工神经网络的研究起源于对生物神经系统的研究,采用反向传播(BP)网络,具有良好的模式分类能力,引入模糊逻辑理论,能较好地处理一些数据的不确定性问题。因此它对待识别的对象不要求
9、有太多的分析与了解,具有一定的智能化处理的特点。由于具有良好的容错能力、分类能力强、并行处理能力和自学习能力。因而,采用神经网络识别方式是一种很好的选择。传统的分类方法对于同类相聚,异类分离比较有优势,但客观世界中许多事物在样本空间中的区域分割曲面非常复杂,相近的样本可能属于不同的类,而远离的样本可能属于同一类 1。模式是对某些感兴趣的客体的定量描述或结构描述,模式类是具有某些共同特征的模式的集合。模式分类可分为两种类型,分类和聚类,分类是在类别知识等导师信息的指导下,.将待识别的输入模式分配到各自的模式类中去。聚类是无导师的分类方法,它是将相似的模式样本划归为一类,而将不相似的分离开,实现了
10、模式样本类内相似性和类间分离性。通过聚类,可以发现原始样本的分布特性。神经网络对外界的输入样本具有很强的识别能力,可以发现输入样本自身的联系和规律以及输入样本和期望输出之间的非线性规律,因此在模式分类方面具有传统分类方法无法比拟的优点。人工神经网络在模式分类方面提出了大量了网络模型,发现了许多学习算法。1.4 本课题研究任务本次毕业设计将根据人(其中部分已确诊患有癌症,部分人身体目前健康)的基因数据设计合适的神经网络进行训练,得到神经网络后再对其他人基因进行研究,判断是否有患病隐患。具体数据与任务为:已知 60 个人的基因数据样本(每个样本有 114 个基因) ,其中前20 个是癌症病人的基因
11、样本(其中还可能有子类,即患有某类癌症), 其后的是 20 个正常人的基因样本,其余的 20 个是待检测的样本(未知它们是否正常)。1.找出描述癌症与正常样本基因的区别,建立数学模型及识别方法,预测待检测样本是癌症还是正常样本。 2.设计可视化方法,使得在得到的数学模型下,清楚地表现癌症与正常样本在基因上的区别,并分析癌症样本中的子类情况。.第二章 神经网络开发环境简介神经网络开发环境具有大多数个人计算机软件开发环境的特点,例如:编辑、编译、解释、链接、库函数、跟踪调试、等。将这些工具应用于开发环境,神经网络软件开发就变得十分简单了。此外,神经网络开发环境还融入了人工智能、仿真和模型软件包的一
12、些概念,具模块系统提供语言和工具、动态描述、运行、数据提取、信号传送、结果分析、显示或图示结果等功能。理想的神经网络开发环境应具有使用简单、功能强大、有效性和可扩展性等关键特征。因此开发环境应具有描述和运行网络模型的良好的用户界面,使研究人员不必掌握操作系统或实现神经网络模型的计算机硬件知识就能进行网络模型的开发。开发环境应允许研究人员选择网络模型及其特性或定义新的网络模型及其特性,应能执行、监视、显示和控制神经网络的运行,并能将网络与其他处理功能连接。有效性是指神经网络开发环境要尽可能有效地使用汁算机。可扩展性意味着能定义和建立新网络类型的网络原始结构,由于有时无法预见将来需要何种网络,所以
13、必须提供处理这种不确定性的功能。可扩展性是人工智能语言的关键特征,神经网络中同样需要这一技术。比较常用的开发环境有 MATLAB 神经网络工具箱、Plexi 神经网络开发环境、Neuroshell 神经网络开发环境等,下面介绍最常用的 MATLAB 神经网络工具箱。2.1 MATLAB 简介随着 Matlab/Simulink 通信、信号处理专业函数和专业工具的成熟,他们逐渐为广大通信技术领域的专家学者和工程师所熟悉,在通信理论研究、算法设计、系统设计、建模仿真和性能验证分析等方面的应用也更加广泛。Matlab,Matrix Laboratory 的简称,是美国 Mathworks 公司于 1
14、984 年推出的数值计算机仿真软件,经过不断的发展和完善,如今已成为覆盖多个学科、具有超强数值计算能力和仿真分析能力的软件。 Matlab 应用较为简单,用大家非常熟悉的数学表达式来表达问题和求解方法。它把计算、图示和编程集成到一个环境中,用起来非常方便。同时,Matlab 具有很强的开放性和适应性,在保持内核不变的情况下,Matlab 推出了适合不同学科的工具箱,如图像处理工具箱、小波分析工具箱、信号处理工具箱、神经网络工具箱等,极大地方便了不同学科的研究工作。Matlab 强大的绘图功能,简单的命令形式,使其越来越受到国内外科技人员的青睐,得到越来越广泛的应用。MATLAB 之所以如此迅速
15、地普及,显示出如此旺盛的生命力,是由于它有着不同于其它语言的特点。正如同 Fortran 和 C 等高级语言使人们摆脱了需要直接对计算机硬件资源进.行操作一样,被称为第 4 代计算机语言的 MATLAB,利用其丰富的函数资源,使编程人员从繁琐的程序代码中解放出来。MATLAB 的主要特点:功能强大:MATLAB 具有功能强劲的工具箱,其包含两个部分:核心部分和各种可选的工具箱。核心部分中,有数百个核心内部函数。其工具箱又可分为两类:功能性工具箱和学科性工具箱。功能性工具箱主要用来扩充其符号计算功能、图示建模仿真功能、文字处理功能以及与硬件实时交互功能。功能性工具箱能用于多种学科,而学科性工具箱
16、是专业性比较强的,例如 control toolbox,image processing toolbox,signal processing toolbox 等。这些工具箱都是由该领域内的学术水平很高的专家编写的,所以用户无需编写自己学科范围内的基础程序,就能够直接进行高、精、尖的研究。MATLAB 之所以成为世界顶级的科学计算与数学应用软件,是因为它随着版本的升级与不断完善而具有越来越强大的功能,主要有:数值计算功能;符号计算功能;数据分析功能;动态仿真功能;图形文字统一处理功能。界面友好,编程效率高:MATLAB 突出的特点就是简洁。它用更直观的、符合人类思维习惯的代码代替了 C 和 Fo
17、rtran 语言的冗长代码,给用户带来的是最直观、最简洁的程序开发环境。MATLAB 语言简洁紧凑,使用方便灵活,库函数极其丰富,程序书写形式自由,利用其丰富的库函数避开繁杂的子程序编程任务,压缩了一切不必要的编程工作。由于库函数都是由本领域的专家编写的,因此用户不必担心函数的可靠性。可以说,用 MATLAB 进行科学开发是站在专家的肩膀上来完成的。MATLAB 有很好的可扩充性,可以把它当成一种更高级的语言去使用。各种工具箱中的函数可以互相调用,也可以由用户更改。MATLAB 支持用户对其函数进行二次开发,用户的应用程序可以作为新的函数添加到相应的工具箱中。工具箱主要用来扩充 MATLAB
18、的符号计算功能、图形建模仿真功能、文字处理功能以及与硬件实时交互功能,可用于多种学科。而领域型工具箱是专业性很强的工具箱,每个工具箱都有一门专业理论作为背景,神经网络工具箱即属于这类工具箱。神经网络工具箱将神经网络理论中所涉从到的公式运算和操作,全都编写成了 MATLAB 环境下的子程序.设计者只要根据自己的需要.通过直接调用函数名,输入变 t,运行函数,便可立即得到结果,从而大大节省了设计人员的编程和调试时间。神经网络工具箱以人工神经网络理论为基础,用MATLAB 语言构造出典型神经网络的激活函数,使设计者对所选定网络输出的计算,变成对激活函数的调用。.第三章 人工神经网络的理论研究3.1
19、人工神经网络理论基础3.1.1 神经网络的结构通常所说的神经网络结构,主要指它的连接方式。从拓扑结构上考虑,神经网络属于以神经元为节点,以节点间的有向连接为边的一种图。其结构大体上可分为层状和网状两大类:层状结构的神经网络是由若干层组成,每层中有一定数量的神经元,下相邻层中的神经元为单向连接,同层内的神经元不能连接:在网状结构的神经网络中,任何两个神经元之间都可能双向连接。一般常见的神经网络有如下几种网络结构。前向网络(前馈网络)。前向网络通常包括许多层,其特点是只有前后相邻两层之间的神经元存在相互连接,各神经元之间没有反馈。每个神经元可以从前一层接收多个输入,并只有一个输入送给下一层的各神经
20、元。三层前向网络分为输入层、隐含层和输出层。在前向网络中有计算功能的节点称为计算单元,而输入节点无计算功能。反馈网络。反馈网络从输入层到输出层有反馈,即每个节点同时接收外来输入和来自其它节点的反馈输入,其中也包括神经元输出信号引回到本身输入成的自环反。这种反网络的节点都是一个计元。相互结合型网络。这种网络在任意两个神经元之间都可能有连接。Hopfield 网络和Boltzman 机均属于这种类型。在无反馈的前向网络中,信号一旦通过某个神经元,该神经元的处理过程就结束了。而在相互结合网络中,信号要在神经元之间反复传递,网络处于一种不断改变状态的动态之中。从某初试状态开始,经过若干次的变化,才会达
21、到某种平衡状态。3.1.2 神经网络的学习和训练人脑中有一个典型的神经元通过许多树突的精细结构,收集来自其它神经元的信息,当它收到的兴奋输入足够大于它的抑制输入时,神经元将通过轴突发出电话性脉冲,经突触结构影响其它的神经元,这便发生了学习行为。因此,可以认为神经网络学习的本质特征在于神经细胞特殊的突触结构所具有的可塑性连接,而如何调整连接权值就构成了不同的学习规则。学习规则就是修改神经网络的权值和偏置值的方法和过程(也称这种过程是训练算法),其目的是为了训练网络来完成某些工作。现在有很多类型的神经网络学习规则,如 Hebb 学习规则、Delta 学习规则、Wdirow-Hoff 学习规则等。大
22、致可以将其分为有监督学习和无监督学习两大类。.有监督学习。为了使神经网络在实际应用中能解决各种问题,必须对它进行训练,就是从应用环境中选出一些样本数据,通过不断地调整权矩阵,直到得到合适的输入输出关系为止,这个过程就是对神经网络的训练过程,这种训练过程需要外界监督,提供训练数据(样本数据)。权值的调整是基于奖惩式的规则:当网络的输出朝正确的方向变化时,调整权值以强化(奖励)此方向的变化;而当网络的输出朝着错误方向变化时,权值将朝着弱化(惩罚)的方向变化。这种学习方法虽然简单,并能够根据训练数据准确地调整出所需的权矩阵,但它也同时要求训练数据能够代表实际的应用环境。并且为了适应环境的变化,需要重
23、新调整权值,这样当学到新知识时,就容易遗忘旧的知识。无监督学习。无监督学习的训练数据集中,只有输入而没有目标输出,训练过程中神经网络将自动地提取各输入数据的特征,并将其分成若干类。经过训练好的网络能够识别训练数据集以外的新的输入类别,并相应获得不同的输出。3.2 SOM 神经网络SOM 网络是 Kohonen 于 1981 年提出的,它引入了网络的拓扑结构,并在这种拓扑结构上进一步引入变化邻域概念来模拟生物神经网络中的侧抑制现象,从而实现网络的自组织特性。SOM 网络的无监督学习方式更类似于人类大脑中生物神经网络的学习,其重要特点是通过自动寻找样本中的内在规律和本质属性,自组织、自适应地改变网
24、络参数和结构。自组织映射算法的基本目标是寻找较小的原型集来存储一个大的输入集,而这些原型集能够提供对输入空间的良好近似。从分类角度说,自组织映射通过寻找最优参考向量集合来对输入模式进行分类。这个原型集就是自组织网络的权值向量,因此特征映射提供了对输入空间的良好近似。SOM 网络能够根据其学习规则对输入的模式自动进行分类,即在非监督的情况下,对输入模式进行自组织学习,通过反复地调整连接着输入和输出的权值向量,最终使得这些权值反映出输入样本之间的相互距离关系,并在竞争层中将分类结果表示出来。当外界输入不同的样本到 SOM 网络中,一开始时输入样本引起输出兴奋的位置各不相同,但通过网络自组织后会形成
25、一些输出群,它们分别代表了输入样本的分布,反映了输入样本的图形分布特征。SOM 网络使输入样本通过竞争学习后,相似的输入靠得比较近,不同的分得比较开,以此将一些无规则的输入自动排开,在连接权的调整过程中,使得权值的分布与输入样本的概率密度分布相似。所以 SOM 网络可以作为一种样本特征检测器,在样本排序、样本分类以及样本检测方面有广泛地应用。.SOM 网属于自组织映射神经网络 SOM 神经网络接收外界的输入模式时会分为不同的对应区域各区域对不同的输入模式会有不同的响应特征利用这个特征可以对输入模式进行分类。算法思想:它的学习规则是胜者为王找出和输入向量最为相似的竞争层神经元即获胜神经元在一个以
26、该神经元为中心的邻域内对本区域内的所有神经元的权值进行不同程度的调整调整的原则是由远及近由兴奋变为抑制权值调整的结果是使竞争层的特定神经元变得对输入层的某些样本敏感从而达到分类的目的。图 3-1 SOM 网络模型算法步骤:1.找出获胜神经元对于每一个输入模式向量 ,竞争层的所有神经元对应的内星权向量 ,XjW(=1,2 m)均与 进行比较,将与 最为相似的神经元判为获胜神经元。其权值记为 。相似性量X *j度为 和 的欧氏距离或夹角余弦。WTjjj|-|=(-W)|(1,2.)M 是竞争层神经元个数。d 为输入向量 离获胜神经元的距离。X2找出一个 的一个领域 ,对于 内的所有权值进行调整。*
27、j jSj3权值调整 jjj(t+1)=(t-(t)为学习率,随着 t 的增加, 的值在不断地减小。权值的调整是使得获胜结点更加接近输入样本从而使竞争层的每一个神经元变为一个聚类中心当向网络输入一个模式时,竞争层中哪个神经元获胜使输出为 1,当前输入就归为哪类。通过聚类进行模式划分的方法还有模糊聚类,K-均值聚类,HCM,最近邻聚类(NN 算法)等,这些算法的最主要优点就是不需要导师信号,这对于一些无法得到导师信号的模式分类情况来说是有优势的.下面我们来详细介绍 SOM 神经网络模型在模式分类中的应用方法。聚类依据与相似性测量SOM 网络的学习属于非监督竞争学习,网络的训练中不含有期望输出,因
28、此对于某一输入样本应属于哪一类别并没有任何先验知识。对于一组输入模式,只能根据它们之间的相似程度分为若干类,因此相似性是输入模式的聚类依据。神经网络的输入模式用向量表示,比较不同模式的相似性可转化为比较两个向量的距离,因而可用模式向量间的距离作为聚类依据。常用的聚类依据判别方法有欧氏最小距离法和余弦法。设 和12,.nXx,为两个 n 维模式向量,则它们的欧式距离可表示为:12,.nYy 21|()niiiXYxy两个模式向量的欧氏距离越小,两个向量越接近,因此认为这两个模式越相似,当两个模式完全相同时,其欧氏距离为零。如果对同一类内各个模式向量间的欧氏距离做出规定,不允许超出某一最大距离 ,
29、则最大距离 就成了一种聚类判别依据。同类模式向量maxDmax的距离小于 ,两类模式向量的距离大于 。ax对于 X 和 Y 两个模式向量,它们的余弦可表示为: cos|TXY两个模式向量越接近,其夹角越小,余弦越大。当两个模式方向完全相同时,其夹角余弦为 1。如果对同一类内各个模式向量间的夹角做出规定,不允许超过某一最大夹角 ,max则最大夹角 就成为一种聚类判别依据。同类模式向量的夹角小于 ,两类模式向量max max的夹角大于 。竞争学习规则SOM 网络采用竞争的方式学习。竞争学习是指同一层次上的各神经元之间相互竞争,采用的规则是“ 胜者为王”。当向网络输入某一向量之后,按照某种规则让输出
30、层节点开始竞争,当某一节点竞争获胜后,则对与获胜节点相连的权值进行调整,调整权值的目的是为了使权值与其输入矢量之间的差别越来越小,从而使训练后的竞争网络的权值能够代表对应输.入矢量的特征,把相似的输入矢量分成了同一类,并由输出来指示所代表的类别。当网络再输入这个模式或者相近模式时,该节点更容易获胜,同时,其他节点受到抑制,从而对该类模式不敏感而难以获胜。当有其他类别模式输入时,这些节点再参与有希望的竞争。因为只有与获胜节点相连的权值才能得到修正,通过学习法则使修正后的权值更加接近当前输入矢量。结果是,获胜的节点对将来再次出现的相似矢量更加容易获胜;而对于一个不同的矢量出现时,就更加不易取胜,但
31、可能使其他某个节点获胜,归为另一类矢量群中。随着输入矢量的重复出现而不断地调整与获胜节点相连的权矢量,以使其更加接近于某一类输入矢量。最终,如果有足够的神经元节点,每一组输入矢量都能使某一节点的输出为 1 而聚为该类。SOM 网络的学习过程,实际上是对输入矢量的划分聚类过程,使得获胜节点与输矢量之间的权矢量代表获胜输入矢量。这样,当达到最大循环次数以后,网络已重复次训练了学习样本中的所有矢量,训练结束后,当网络得到一个输入模式向量时,竞争层的所有神经元对应的权值向量均与该输入模式向量进行相似性比较,将具有与它最相似的权矢量的神经元判为竞争获胜神经元,按照“胜者为王” 的竞争学习规则,获胜神经元
32、输出 1,其余输出为零。当向网络输入一个模式时,竞争层中哪个神经元输出为 1,则当前输入模式就归为哪一类。SOM 网络的拓扑结构SOM 网络模型具备这样的特点:输入节点和输出神经元的权值互连;在输出神经元之间进行竞争选择,输出神经元之间存在侧抑制。从功能上来说,它能将单个神经元的变化规则和一层神经元的群体变化规则联系在一起。SOM 网络就是利用其自组织的特点,将输入向量组成的一维序列映射到二维的神经元阵列上,通过自我调整从而进行信息的聚类。从网络结构上说,SOM 网络的最大特点是神经元被放置在一维、二维或更高维的网格节点上。图 32 所示为一维网格模型,图 33 是最为普遍的二维网格模型。该模
33、型由输入层和输出层组成,输出层又叫竞争层,输入层的神经元和竞争层的神经元都有权值连接,竞争层神经元同它周围的其它神经元侧向连接,这种连接模拟了人脑中神经元之间的侧抑制功能。.图 3-2 一维 SOM 神经网络在竞争层,每个神经元都有自己的邻域。竞争层的竞争结果,不仅使获胜节点输出为1,同时使获胜节点周围的邻域节点也输出为 1。另外,在权值调整的方式上,不仅调整与获胜节点相连的权值,对其邻域节点的权值也进行调整,也就是使其邻域内的神经元在不同程度上也得到兴奋,而邻域以外的神经元都被抑制。图 3-3 二维 SOM 神经网络SOM 网络的学习过程SOM 网络可以实现自组织功能,自组织的目的就是通过调
34、整权系数,使神经网络收敛于一种表示形态,在这一表示形态中的一个神经元只对某种输入模式特别匹配。SOM 网络的学习过程是由三部分组成的:竞争、合作和更新过程。(1)竞争过程在输入层有 N 个输入节点,其中任一输入节点用 j 表示,竞争层分布着 M 个神经元,其中任一神经元用 i 表示。输入节点通过权值和竞争层的神经元相连。设为输入向量,对于 SOM 网络的竞争层神经元 i,其权值向量为12(,.)TXx。在竞争过程中,选择和输入向量 X 的欧氏距离最小的神经元为,iiiNWw获胜神经元。所谓欧氏距离是指 n 维欧氏空间中向量 ,和向量12(,.)TNYy的距离,其值为 。所以当输入向量为 X 且
35、第 c 个神经元12,.NZz21()jjjyz获胜时,满足条件:,|min|,12,.ciXWM(2)合作过程.在合作过程中,确定获胜神经元的加强中心。拓扑邻域的中心就是在竞争过程中得到的获胜神经元,在邻域范围内的神经元成为兴奋神经元,即加强中心。在此,可采用简单的正方形的邻域形状。邻域在网格上的表现如图 34。图 3-4 拓扑领域当邻域的半径为 0 时,邻域仅仅包含获胜神经元;而当半径为 1 时,邻域包含了获胜神经元之外的 8 个邻近神经元。当半径增大时,邻域依此规律放大。在此将拓扑邻域记为,同时也表示在第 n 次迭代时,拓扑邻域的半径。它的值随着迭代次数的增加而变cN(n)化,其更改规则
36、可以采用式: ccN()=IT(0)1-n/N,=02,.(3)更新过程在更新过程中,采用 Hebb 学习规则的改变形式,对获胜神经元拓扑邻域内的神经元进行权值向量的更新。 jj jW(n+1)=(n)(X-W),=012,.其中, 为学习率(0200 33 42 34 21 58 16 13 30 19 33 16 20 20 29 36由该表可知,隐层节点数为 12 训练次数较少,而且从其训练误差曲线(用 MATLAB 画出如图 5.1)情况来看也比较好,所以最终确定隐层节点数为 12,那么最后的网络结构也确定下来即 1Ox8x3,即网络容量为 2400。根据已知条件,给定的数据中,已知一
37、组 20 个样本具有癌症特性,而另一组 20 个样本具有正常的特性,现在我们要通过神经网络模型将第三组模型进行训练,做模式分类从而来判断其具有的特性。我们首先将前 20 组数据归为一个数组,中间 20 个归为一个数组,最后 20 个归为一个.数组,通过 BP 神经网络算法对三类进行识别分类。我们分别以癌症患者的数据和正常人的基因数据为训练目标,对第三组数据进行测试,分别得到如下的结果。训练样本(癌症病人):图 5-1 训练 400 次图 5-2 训练 100 次.图 5-3 训练 50 次训练样本(正常人):图 5-4 训练 400 次.图 5-5 训练 100 次图 5-6 训练 50 次通
38、过以上分析,我们可以知道第三组数据类型可能为正常人基因。5.3 小结本章研究并设计实现了一个具体的模式识别系统,即人体基因数据的模式分类。在深入分析、设计其硬件构成的基础上,采用 BP 神经网络较好地实现了基因数据的识别。开发的样机运行结果良好,有较高的基因识别率,表明本文所研究与开发的成果有较好的理论意义和实用意义。.第六章 总结模式识别理论与神经网络理论是相互渗透、互相映射的。目前,以视觉神经系统为中心的神经网络理论的研究正取得迅猛的发展。在这方面取得的些许进步,都会给模式识别系统带来新的希望。本文从神经网络是天然分类器的理论出发,全面研究了神经网络进行模式识别的各个方面,并具体设计了一个
39、的识别系统来进行实际意义上的验证。综合起来,本文主要完成了以下几方面的工作:仔细分析了模式识别、神经网络的历史渊源以及用神经网络来进行模式识别的发展史,然后指出模式识别技术的实际困难和要求。从传统意义上的一些模式识别方法入手,分别研究了他们不同的识别思想,再对神经网络进行模式识别的方法进行分析,从而比较它与传统方法的异同,指出了神经网络方法的特点与优越性。重点研究了神经网络模式识别系统的第一个关键问题,即模式的预处理和特征提取。其中前者是为了消除模式的噪声改善信号质量,后者则可以最大限度地压缩输入模式的维数,从而降低后面的神经网络分类器的复杂度,提高网络性能。神经网络的底层理论基础是实现模式识
40、别的根本,也是其实现模式识别的可行性的最有力证据。本文在大量研究国内外文献资料的基础上给出了一些概况性理论。首先论述了神经网络的生物基础,然后叙述了神经网络的拓扑结构及学习规则等原理,然后介绍了一些典型的常用于模式识别的神经网络模型,最后给出了神经网络进行模式识别的理论方法。本文的核心内容是设计一个 BP 神经网络模式分类器。文中首先介绍了基于 BP 算法的多层前馈网络模型和它的学习算法,并分析了 BP 网络的一些优点和能力,同时分析了 BP网络的一些局限性,然后在前面基础上给出了为了克服这些局限性而改进其性能的几种方法。.综合该章前述内容文中仔细研究了 BP 网络分类器的各个关键部分设计的问
41、题,并给出了具体设计实现方法。设计神经网络有几种传统方法,本文研究了目前应用最广泛的 MATLAB神经网络开发环境中的设计方法。参考文献01胡守仁.神经网络应用技术.长沙:国防科技大学出版社,199302杨建刚.人工神经网络实用教程.浙江:浙江大学出版社,200203徐扬.模糊模式及其应用.成都:西南交通大学出版社,199904张承福.神经网络系统.力学进展,198805王碧泉,陈祖荫.模式识别理论、方法和应用.北京:地震出版社,199806党建武.神经网络技术及应用.北京:中国铁道出版社,200007李晓忠,汪培庄,罗承忠.模糊神经网络.贵州:贵州科技出版社,199408蒋宗礼.人工神经网络导论.北京:高等教育出版社,200109边肇祺,张学工.模式识别.第二版,清华大学出版社,200010蔡自兴,徐光佑.人工智能及应用.清华大学出版社,200211钟玉琢,乔秉新,李树清.机器人视觉技术.国防工业出版社,199412阎平凡,张长水.人工神经网络与模拟进化计算.清华大学出版社,200313张燕,孙慧.前馈神经网络的改进算法.中国控制与决策学术年会论文集.西安,200114孙建业,王辉.BP 神经网络算法的改进.系统工程与电子技术,1994,