1、第2章 神经网络基础知识,本章将阐述,作为“智能”物质基础的大脑是如何构成和如何工作的?在构造新型智能信息处理系统时,可以从中得到什么启示? 2.1 人工神经网络的生物学基础 2.2 人工神经元模型 2.3 人工神经网络模型 2.4 神经网络学习 本章小结,2.1 人工神经网络的生物学基础,神经生理学和神经解剖学的研究结果表明,神经元(Neuron)是脑组织的基本单元,是神经系统结构与功能的单位。 据估计,人类大脑大约包含有1.41011个神经元,每个神经元与大约103105个其他神经元相连接,构成了一个庞大而复杂的网络,即生物神经网络。生物神经网络中各神经元之间连接的强弱,按照外部的激励信号
2、作自适应变化而每个神经元又随着所接受的多个激励信号的综合结果呈现出兴奋与抑制状态。 大脑的学习过程就是神经元之间连接强度随外部激励信息作自适应变化的过程,大脑处理信息的结果是由各神经元状态的整体效果来确定。显然,神经元是人脑信息处理系统的最小单元。,2.1.1 生物神经元的结构,人脑中神经元的形态不尽相同,功能也有差异,但从组成结构来看,各种神经元是有共性的。,图2.1给出一个典型神经元的基本结构和与其他神经元发生连接的简化示意图。 神经元在结构上由细胞体、树突、轴突和突触四部分组成。,2.1.1 生物神经元的结构(续一),(1)细胞体(Cell body) 细胞体是神经元的主体,由细胞核、细
3、胞质和细胞膜三部分构成。,细胞核占据细胞体的很大一部分,进行着呼吸和新陈代谢等许多生化过程。细胞体的外部是细胞膜,将膜内外细胞液分开。由于细胞膜对细胞液中的不同离子具有不同的通透性,使得膜内外存在着离子浓度差,从而出现内负外正的静息电位。,2.1.1 生物神经元的结构(续二),(2)树突(Dendrite) 从细胞体向外延伸出许多突起的神经纤维, 其中大部分突起较短,其分支多群集在细胞体附近形成灌木丛状,这些突起称为树突。神经元靠树突接受来自其他神经元的输入信号,相当于细胞体的输入端。,2.1.1 生物神经元的结构(续三),(3)轴突(Axon) 由细胞体伸出的最长的一条突起称为轴突,轴突比树
4、突长而细,用来传出细胞体产生的输出电化学信号。,轴突也称神经纤维, 其分支倾在神经纤维终端处长出, 这些细的分支称为轴突末梢或神经末梢。神经末梢可以向四面八方传出信号, 相当于细胞体的输出。,2.1.1 生物神经元的结构(续四),(4)突触(Synapse) 神经元之间通过一个神经元的轴突末梢和其他神经元的细胞体或树突进行通信连接,这种连接相当于神经元之间的输入输出接口,称为突触。突触包括突触前、突触间隙和突触后三个部分。,突触前是第一个神经元的轴突末梢部分, 突触后是指第二个神经元的树突或细胞体等受体表面。突触在轴突末梢与其他神经元的受体表面相接触的地方有1550nm(纳米10-9m)的间隙
5、, 称为突触间隙,在电学上把两者断开, 见图2.2。每个神经元大约有103105个突触, 多个神经元以突触连接即形成神经网络。,2.1.1 生物神经元的结构(续五),2.1.1 生物神经元的结构(续六),突触,2.1.2 生物神经元的信息处理机理,在生物神经元中,突触为输入输出接口,树突和细胞体为输入端,接受来自突触点的输入信号;细胞体相当于一个微型处理器,对各树突和细胞体各部位收到的来自其他神经元的输入信号进行组合,并在一定条件下触发,产生输出信号;输出信号沿轴突传至末梢,轴突末梢作为输出端通过突触将这一输出信号传向其他神经元的树突和细胞体。下面对生物神经元之间接受、产生、传递和处理信息的机
6、理进行分析。,2.1.2.1 信息的产生(1/3),研究认为,神经元之间信息的产生、传递和处理是一种电化学活动。由于细胞膜本身对不同离子具有不同的通透性,从而造成膜内外细胞液中的离子存在浓度差。神经元在无信号输入时,其细胞膜内外因离子浓度差而造成的电位差为 -70mV(毫伏,内负外正)左右,称为静息电位,此时细胞膜的状态称为极化状态(Polarization),神经元的状态为静息状态。当神经元受到外界的刺激时,如果膜电位从静息电位向正偏移,称之为去极化(Depolarization),此时神经元的状态为兴奋状态;如果膜电位从静息电位向负偏移,称之为超级化(Hyper polarization)
7、,此时神经元的状态为抑制状态。,2.1.2.1 信息的产生(2/3),神经元细胞膜的去极化和超极化程度反映了神经元兴奋和抑制的强烈程度。在某一给定时刻,神经元总是处于静息、兴奋和抑制三种状态之一。神经元中信息的产生与兴奋程度相关,在外界刺激下,当神经元的兴奋程度超过了某个限度,也就是细胞膜去极化程度超过了某个电位时,神经元被激发而输出神经脉冲。神经脉冲产生的经过如下:以静息膜电位为基准(-70mV), 当膜电位高出15mV, 即超过阀值电位(-55mV)时, 该神经细胞变成活性细胞,其膜电位自发地急速升高, 在1ms内比静息膜电位上升100mV (+30mV)左右, 此后膜电位又急速下降, 回
8、到静息时的值。,2.1.2.1 信息的产生(3/3),这一过程称作细胞的兴奋过程, 兴奋的结果产生一个宽度为1ms,振幅为100mV的电脉冲, 又称神经冲动, 如图2.3所示。,值得注意的是, 当细胞体产生一个电脉冲后, 即使受到很强的刺激, 也不会立刻产生兴奋。这是因为神经元发放电脉冲时,暂时性阀值急速升高,持续1ms后慢慢下降到-55mV这一正常状态,这段时间约为数毫秒,称为不应期。,不应期结束后,若细胞受到很强的刺激,则再次产生兴奋性电脉冲。由此可见,神经元产生的信息是具有电脉冲形式的神经冲动。各脉冲的宽度和幅度相同,而脉冲的间隔是随机变化的。某神经元的输入脉冲密度越大,其兴奋程度越高,
9、在单位时间内产生的脉冲串的平均频率也越高。,2.1.2.2 信息的传递与接收(1/3),神经脉冲信号沿轴突传向其末端的各个分支,在轴突的末端触及突触前时,突触前的突触小泡能释放一种化学物质,称为递质。在前一个神经元发放脉冲并传到其轴突末端后,这种递质从突触前膜释放出,经突触间隙的液体扩散,在突触后膜与特殊受体相结合。受体的性质决定了递质的作用是兴奋的还是抑制的,并据此改变后膜的离子通透性,从而使突触后膜电位发生变化。根据突触后膜电位的变化,可将突触分为两种:兴奋性突触和抑制性突触。兴奋性突触的后膜电位随递质与受体结合数量的增加而向正电位方向增大,抑制性突触的后膜电位随递质与受体结合数量的增加向
10、更负电位方向变化。,2.1.2.2 信息的传递与接收(2/3),从化学角度看:当兴奋性化学递质传送到突触后膜时,后膜对离子通透性的改变使流入细胞膜内的正离子增加,从而使突触后成分去极化,产生兴奋性突触后电位;当抑制性化学递质传送到突触后膜时,后膜对离子通透性的改变使流出细胞膜外的正离子增加,从而使突触后成分超极化,产生抑制性突触后电位。当突触前膜释放的兴奋性递质使突触后膜的去极化电位超过了某个阀电位时,后一个神经元就有神经脉冲输出从而把前一神经元的信息传递给了后一神经元(图2.4)。,2.1.2.2 信息的传递与接收(3/3),神经递质产生,神经电脉冲,神经递质释放,递质与受体结合,电生理反映
11、,突触间隙,突触前,突触后,图2-4 突触信息传递过程,前一个神经元,后一个神经元,2.1.2.2 信息的传递与接收,从脉冲信号到达突触前膜,到突触后膜电位发生变化, 有0.21ms的时间延迟, 称为突触延迟(synaptic delay),这段延迟是化学递质分泌、向突触间隙扩散、到达突触后膜并在那里发生作用的时间总和。由此可见,突触对神经冲动的传递具有延时作用。在人脑中,神经元间的突触联系大部分是在出生后由于给予刺激而成长起来的。外界刺激性质不同,能够改变神经元之间的突触联系,即突触后膜电位变化的方向与大小。从突触信息传送的角度看,表现为放大倍数和极性的变化。正是由于各神经元之间的突触连接强
12、度和极性有所不同并可进行调整,因此人脑才具有学习和存储信息的功能。,2.1.2.3 信息的整合(1/2),神经元对信息的接受和传送都是通过突触来进行的。单个神经元可以与多达上千个其他神经元的轴突末梢形成突触连接,接受从各个轴突传来的脉冲输入。这些输入可到达神经元的不同部位,输入部位不同,对神经元影响的权重也不同。在同一时刻产生的刺激所引起的膜电位变化,大致等于各单独刺激引起的膜电位变化的代数和。这种累加求和称为空间整合。另外,各输入脉冲抵达神经元的先后时间也不一样。由一个脉冲引起的突触后膜电位很小,但在其持续时间内有另一脉冲相继到达时,总的突触后膜电位增大。这种现象称为时间整合。,2.1.2.
13、3 信息的整合(2/2),一个神经元的输入信息在时间和空间上常呈现一种复杂多变的形式,神经元需要对它们进行积累和整合加工,从而决定其输出的时机和强弱。正是神经元的这种时空整合作用,才使得亿万个神经元在神经系统中可以有条不紊、夜以继日地处理着各种复杂的信息,执行着生物中枢神经系统的各种信息处理功能。,2.1.2.4 生物神经网络(1/2),由多个生物神经元以确定方式和拓扑结构相互连接即形成生物神经网络,它是一种更为灵巧、复杂的生物信息处理系统。研究表明,每一个生物神经网络系统均是一个有层次的、多单元的动态信息处理系统,它们有其独特的运行方式和控制机制,以接受生物内外环境的输入信息,加以综合分析处
14、理,然后调节控制机体对环境做出适当反应。生物神经网络的功能不是单个神经元信息处理功能的简单叠加。每个神经元都有许多突触与其他神经元连接,任何一个单独的突触连接都不能完全表现一项信息。只有当它们集合成总体时,才能对刺激的特殊性质给出明确的答复。由于神经元之间突触连接方式和连接强度的不同并且具有可塑性,神经网络在宏观上呈现出千变万化的复杂的信息处理能力。,2.1.2.4 生物神经网络(2/2),CEREBRAL CORTEX-大脑皮层,神经细胞的定义,神经细胞是高等动物神经系统的结构单位和功能单位,又被称为神经元(neuron)。神经系统中含有大量的神经元,据估计,人类中枢神经系统中约含1000亿
15、个神经元,仅大脑皮层中就约有140亿。神经细胞描述:神经细胞呈三角形或多角形,可以分为树突、轴突和胞体这三个区域。,附件,附件,神经细胞的功能,神经元的基本功能是通过接受、整合、传导和输出信息实现信息交换。脑是由神经元构成的,神经元群通过各个神经元的信息交换,实现脑的分析功能,进而实现样本的交换产出。产出的样本通过联结路径点亮丘觉产生意识。,附件,丘觉是我们通过遗传获得的意思结构,这些意思是丘脑核团的神经元本身蕴含的,并能够自由合成发放或被样本点亮发放出来。丘觉平时处于潜伏状态,自由合成或被点亮时意思才能发放出来,形成意识。丘觉是不能通过学习获得的,丘觉具有遗传性和联结性,丘觉的性质也就决定了
16、意识的性质。,附件,附件,脑细胞的特征脑细胞一旦发育完成后,再也不会增殖。人的一生就只有出生时那个数目的脑细胞可供利用,大约120亿个。骨骼、肝脏、肌肉等其它器官或组织损伤后可因细胞分裂增殖很快得以恢复,唯独脑细胞不可再生。目前,科学界尚没有更好的办法能够改变脑细胞不可再生这一特性。 脑细胞处在一种连续不断地死亡且永不复生增殖的过程,死一个就少一个,直至消亡殆尽。人到20岁左右,脑细胞发育的速度达到巅峰,此时不仅精力充沛,而且记忆力好,是一生中的黄金季节,越过此峰,便是下坡。20岁过后,若这些细胞放置在那里而不使用的话,会以每天10万个的数量变成废品。拿80岁的人和40岁的人相比较,前者比后者
17、大约减少了一半,相差一倍左右,这已被科学所证实。,附件,脑细胞的特征脑细胞按其成熟度可分为三种类型:一类是已经充分发展了的脑细胞,其成熟度最高,每个细胞有多达二万余条线路与其它的细胞有业务联系。这部分细胞为处于工作状态的精英。 另一类是未充分发展的脑细胞,其成熟度相对较低,每个细胞一般只有几十条线路与其它脑细胞联络,我们称这部分脑细胞是处于半抑制状态。 第三类是完全没有发展的原始状态的脑细胞,这部分脑细胞既不马上死亡,也不参与工作,处于休闲状态。我们称其为处于完全抑制状态或沉睡状态的脑细胞。 人脑大约有120亿个脑细胞,最多不到10%是充分发展了的并常加以运用的,其余的仍处在未充分发展或完全没
18、有发展的原始状态。,附件,脑细胞的特征脑细胞彼此间联络的线路绝大多数在人出生后,受到外界环境的刺激而逐步发展形成的。脑细胞联络线路越多,就越能发挥各细胞彼此之间的分工合作,人就越聪明,智商就越高。神经细胞的数量,出生时有多少以后就有多少,不能增加。神经细胞是有寿命的,脑细胞死一个就少一个、衰老便不由人愿了,可见“笑一笑十年少,愁一愁白了头”是有些道理的。,附件,2.2 人工神经元模型,人工神经网络是在现代神经生物学研究基础上提出的模拟生物过程以反映人脑某些特性的计算结构。它不是人脑神经系统的真实描写,而只是人脑神经系统的某种抽象、简化和模拟。根据前面对生物神经网络的介绍可知,神经元及其突触是神
19、经网络的基本器件。因此,模拟生物神经网络应首先模拟生物神经元。在人工神经网络中,神经元常被称为“处理单元”。人工神经元是对生物神经元的一种形式化描述;人工神经元是对生物神经元的信息处理过程进行抽象,并用数学语言予以描述;人工神经元是对生物神经元的结构和功能进行模拟,并用模型图予以表达。,2.2.1 神经元的建摸(1/6),目前人们提出的神经元模型已有很多,其中最早提出且影响最大的是M-P模型( 1943年由心理学家McCulloch和数学家WPitts首先提出的)。该模型经过不断改进后,形成目前应用广泛的一种神经元模型。关于神经元的信息处理机制,该模型在简化的基础上提出以下6点假定: 1、是一
20、个多输入单输出的信息处理单元; 2、突触分兴奋性和抑制性两种类型; 3、神经元具有空间整合特性和阀值特性; 4、输入与输出间有固定的时滞,取决于突触延搁; 5、忽略时间整合作用和不应期; 6、神经元本身是非时变的,即其突触时延和突触强度均为常数。,2.2.1 神经元的建摸 (2/6),上述假定,可用图2.5中的神经元模型示意图进行图解表示。,2.2.1 神经元的建摸 (3/6),如生物神经元有许多激励输入一样,人工神经元也应该有许多的输入信号。图中用xi ( i=1, 2, , n )表示输入数值的大小,它们同时输入神经元j。,j,x1 xi xn,wnj,wij,w1j,2.2.1 神经元的
21、建摸(4/6),生物神经元具有不同的突触性质和突触强度,其影响是使有些输入的作用比另外一些输入更为重要。对模拟神经元的每一个输入都有一个加权系数wij,称为权重值,其正负模拟了生物神经元中突触的兴奋和抑制,其大小则代表了突触的不同连接强度。,j,x1 xi xn,2.2.1 神经元的建摸(5/6),作为基本处理单元,必须对全部输入信号进行整合,以确定各类输入的作用总效果,组合表示输入信号的“总和值”,相应于生物神经元的膜电位。神经元是否激活,决于某一阈值电平,即只有当其输入总和超过阈值时,神经元才被激活而发出脉冲,否则神经元不会产生输出信号。,wnj,wij,w1j,j,x1 xi xn,f,
22、oj,2.2.1 神经元的建摸(6/6),人工神经元的输出也同生物神经元一样仅有一个,如用oj表示神经元j输出。输出与输入之间的对应关系可用某种函数来表示,这种函数称为转移函数,一般都是非线性的。,wnj,wij,w1j,j,x1 xi xn,2.2.2 神经元的数学模型(1/6),我们用一个数学表达式对上述内容可进行抽象与概括。令xi(t)表示t时刻神经元j接收的来自神经元i的信息输入,oj(t)表示t时刻神经元的信息输出,则神经元j的状态可表达为,式中 ij 输入i输出j间的突触延时;Tj 神经元j的阈值;wij 神经元i到j的突触连接系数值;f( ) 神经元转移函数。,2.2.2 神经元
23、的数学模型(2/6),为简单起见,将上式中的突触延时取为单位时间,则式(2.1)可写为,上式描述的神经元数学模型全面表达了神经元模型的6点假定。 1、多输入单输出; (n个输入; 1个输出) 2、突触分兴奋性和抑制性; (wij可正可负、可大可小) 3、有空间整合特性和阀值特性; (求和, Tj) 4、输入与输出间有固定的时滞; 5、忽略时间整合作用和不应期; 6、非时变,即突触时延和突触强度为常数。,2.2.2 神经元的数学模型(3/6),输入总和常称为神经元在t时刻的净输入,用,当netjTj时,神经元j才能被激活。 oj(t+1)与xi(t)之间的单位时间差代表所有神经元具有相同的、恒定
24、的工作节律,wij与时间无关。为简便起见,后面用到式(2.3)和(2.3)时,常将其中的(t+1)和 (t)省略。,2.2.2 神经元的数学模型(4/6),式(2.3)还可表示为权重向量和输入向量的点积,其中 Wj 和 X 均为列向量,定义为,2.2.2 神经元的数学模型(5/6),如果令x0=-1,w0j=Tj,则有-Tj=w0jx0,因此净输入和阈值之差可表示为:,式(2.4)中列向量和的第一个分量的下标均从1开始, 而式(2.5)中则从0开始。,2.2.2 神经元的数学模型(6/6),采用式(2.5)的约定后, 净输入改写为net, 与原来的区别是包含了阈值。综合以上各式, 神经元模型可
25、简化为,2.2.3 神经元的转移函数,神经元的各种不同数学模型的主要区别在于采用了不同的转移函数,从而使神经元具有不同的信息处理特性。神经元的信息处理特性是决定人工神经网络整体性能的三大要素之一,因此转移函数的研究具有重要意义。神经元的转移函数反映了神经元输出与其激活状态之间的关系,最常用的转移函数有以下4种形式。(1)阈值型转移函数 (2)非线性转移函数 (3)分段线性转移函数 (4)概率型转移函数,(1)阈值型转移函数 阈值型转移函数采用了图2.6的单位阶跃函数,用下式定义,具有这一转移函数的神经元称为阈值型神经元,这是神经元模型中最简单的一种,经典的M-P模型就属于这一类。,函数中的自变
26、量x代表netj-Tj,即当netj=Tj时,神经元为兴奋状态,输出为1;当时netjTj ,神经元为抑制状态,输出为0。,2.2.3 神经元的转移函数,2.2.3 神经元的转移函数,(2)非线性转移函数 非线性转移函数为实数域R到0,1闭集的非减连续函数,代表了状态连续型神经元模型。,S型函数曲线特点见图2.7。,最常用的非线性转移函数是单极性Sigmoid函数曲线,简称S型函数,其特点是函数本身及其导数都是连续的,因而在处理上十分方便。,单极性S型函数定义如下,有时也常采用双极性S型函数(即双曲正切)等形式,图2-7 S型转移函数,2.2.3 神经元的转移函数,(3)分段线性转移函数 该函
27、数特点是神经元的输入与输出在一定区间内满足线性关系。由于具有分段线性的特点,因而在实现上比较简单。这类函数也称为伪线性函数,表达式如下,图2.8给出该函数曲线。,2.2.3 神经元的转移函数,(4)概率型转移函数 采用概率型转移函数的神经元模型其输入与输出之间的关系是不确定的,需采用一个随机函数来描述输出状态为1或为0的概率。设神经元输出为1的概率为,式中,T称为温度参数。由于采用该转移函数的神经元输出状态分布与热力学中的玻尔兹曼(Boltzmann)分布相类似,因此这种神经元模型也称为热力学模型。,(2.12),作业 2.1 人工神经元模型是如何体现生物神经元的结构和信息处理机制的? 2.2
28、 若权值只能按1或-1变化,对神经元的学习有何影响?试举例说明。 补充题:请给出典型的人工神经元模型结构并加以说明。,神经元数学模型全面表达了神经元模型的6点假定。 1、多输入单输出; (n个输入; 1个输出) 2、突触分兴奋性和抑制性; (wij可正可负、可大可小) 3、有空间整合特性和阀值特性; (求和, Tj) 4、输入与输出间有固定的时滞; 5、忽略时间整合作用和不应期; 6、非时变,即突触时延和突触强度为常数。,2.3 人工神经网络模型,生物神经网络由数以亿计的生物神经元连接而成,而人工神经网络限于物理实现的困难和为了计算简便,是由相对少量的神经元按一定规律构成的网络。人工神经网络中
29、的神经元常称为节点或处理单元,每个节点均具有相同的结构,其动作在时间上同步。人工神经网络的模型很多,可以按照不同的方法进行分类。其中常见的两种分类方法是,按网络连接的拓扑结构分类和按网络内部的信息流向分类。 2.3.1 网络拓扑结构类型根据神经元之间的连接方式,可将神经网络结构分为两大类(层次型结构 和互连型结构)。,2.3.1.1 层次型结构(1/4),层次型结构的神经网络将神经元按功能分成若干层,如输入层、中间层(也称为隐层)和输出层,各层顺序相连,如图2.9所示。,图2.9 单纯层次型网络结构,图2.9 单纯层次型网络结构,中间层 (也称隐层),输入层,2.3.1.1 层次型结构(2/4
30、),输入层各神经元负责接受来自外界的输入信息,并传递给中间各隐层神经元;隐层是神经网络的内部信息处理层,负责信息变换,根据信息变换能力的需要,隐层可设计为一层或多层;,最后一个隐层传递到输出层各神经元的信息经近一步处理后,即完成一次从输入到输出的信息处理,由输出层向外界(如执行机构或显示设备)输出信息处理结果。,2.3.1.1 层次型结构(3/4),层次型网络结构有3种典型的结合方式。 (1)单纯层次型网络结构 如图2.9所示,神经元分层排列,各层神经元接受前一层输入并输出到下一层,层内神经元自身以及神经元之间不存在连接通路。,图2.9 单纯层次型网络结构,2.3.1.1 层次型结构(3/4)
31、,层次型网络结构有3种典型的结合方式。 (2)输出层到输入层有连接的层次型网络结构 图2.10所示,输出层到输入层有连接路径。输入层神经元既可接受输入,也具有信息处理功能。,2.3.1.1 层次型结构(4/4),层次型网络结构有3种典型的结合方式。 (3)层内有互连的层次型网络结构 图2.11所示,这种结构的特点是在同一层内引入神经元间的侧向作用,使得能同时激活的神经元个数可控,以实现各层神经元的自组织。,2.3.1.2 互连型结构(1/2),对于互连型网络结构,网络中任意两个节点之间都可能存在连接路径,因此根据网络中节点的互连程度将互连型网络结构细分为3种情况。(1)全互连型 网络中的每个节
32、点均与所有其他节点连接,如图2.12所示。,2.3.1.2 互连型结构(2/2),(2)局部互连型 网络中的每个节点只与其邻近的节点有连接,如图2.13所示。,(3)稀疏连接型 网络中的节点只与少数相距较远的节点相连。,2.3.2 网络信息流向类型,从神经网络内部信息传递方向来分,可分为两种类型:前馈型网络和反馈型网络。,2.3.2.1 前馈型网络(1/2)单纯前馈型网络的结构特点与图2.9中所示的分层网络完全相同,前馈是因信息处理的方向是从输入层到各隐层再到输出层逐层进行而得名。从信息处理能力看,网络中的节点可分为两种:一种是输入节点,只负责引入信息后向前传递给第一隐层;另一种是具有处理能力
33、的节点,包括各隐层和输出层节点。,2.3.2.1 前馈型网络(2/2),在前馈型网络中,一层的输出是下一层的输入,信息的处理具有逐层传递进行的方向性,一般不存在反馈环路。这类前馈型网络很容易串联起来建立多层前馈网络。多层前馈网络可以看成是一个有向无环路的网络。其中输入层记为网络的第一层,第一个隐层记为网络的第二层,其余类推。所以,当提到具有单层计算神经元的网络时,指的应是一个两层前馈网络(输入层和输出层),当提到具有单隐层的网络时,指的应是一个三层前馈网络(输入层、隐层和输出层)。,2.3.2.2 反馈型网络,单纯反馈型网络的结构特点与图2.12中的网络结构完全相同,称为反馈网络是指其信息流向
34、的特点。在反馈网络中所有节点都具有信息处理功能,而且每个节点既可以从外界接受输入,同时又可以向外界输出。,2.3.2.2 反馈型网络,单纯反馈型网络的结构特点与图2.12中的网络结构完全相同,称为反馈网络是指其信息流向的特点。在反馈网络中所有节点都具有信息处理功能,而且每个节点既可以从外界接受输入,同时又可以向外界输出。,单层全互连结构网络是一种典型的反馈型网络,可以用图2.14所示的完全的无向图表示。,以上介绍的人工神经网络模型的分类方法、结构形式和信息流向只是对目前常见的网络结构的概括和抽象。,实际应用的神经网络,可能同时兼有其中一种或几种形式。例如,从连接形式看,层次型网络中可能出现局部
35、的互连;从信息流向看,前馈网络中可能出现局部反馈。神经网络的拓扑结构是决定神经网络特性的第二大要素,其特点可归纳为分布式存储记忆与分布式信息处理、高度互连性、高度并行性和结构可塑性。,2.4 神经网络学习,人工神经网络的功能特性由其连接的拓扑结构和突触连接强度,即连接权值决定。神经网络的全体连接权值可用一个矩阵表示,其整体内容反映了神经网络对于所解决问题的知识存储。神经网络能够通过对样本的学习训练,不断改变网络的连接权值以及拓扑结构,以使网络的输出不断地接近期望的输出。这一过程称为神经网络的学习或训练,其本质是对可变权值的动态调整。人工神经网络的学习方式是决定神经网络信息处理性能的第三大要素,
36、因此有关学习的研究在神经网络研究中具有重要地位。,2.4 人工神经网络学习,改变权值的规则称为学习规则或学习算法(亦称训练规则或训练算法),如果只是单个处理单元,无论采用哪种学习规则进行调整,其算法都十分简单。但当大量处理单元集体进行权值调整时,网络就呈现出“智能”特性,其中有意义的信息就分布地存储在调整后的权值矩阵中。神经网络的学习算法很多,根据一种广泛采用的分类方法,可将神经网络的学习算法归纳为三类:一是有导师学习;二为无导师学习;三是死记式学习。,2.4 人工神经网络学习,1、有导师学习也称为有监督学习,这种学习模式采用的是纠错规则。在学习训练过程中需要不断给网络成对地提供一个输入模式和
37、一个期望网络正确输出的模式,称为“教师信号”。将神经网络的实际输出与期望输出进行比较,当网络的输出与期望的教师信号不符时,根据差错的方向和大小按一定的规则调整权值,以使网络的输出更接近期望的输出。对于有导师学习,网络在执行工作任务之前必须先学习训练,当网络输入均能产生所期望的输出时,即认为网络已经在导师的训练下“学会”了训练数据集中包含的知识和规则,可以用来进行工作了。网络工作时,网络的权值不再调整。,2.4 人工神经网络学习,2、无导师学习也称为无监督学习。在学习过程中,需要不断地给网络提供动态输入信息。网络能根据特有的内部结构和学习规则,在输入信息流中发现任何可能存在的模式和规律,同时能根
38、据网络的功能和输入信息调整权值,这个过程称为网络的自组织,其结果是使网络能对属于同一类的模式进行自动分类。在这种学习模式中,网络的权值调整不取决于外来教师信号的影响,可以认为网络的学习评价标准隐含于网络的内部。对于无导师学习,网络也是学习训练,后用来进行工作。网络工作时,网络的权值不再调整。,2.4 人工神经网络学习,有导师学习和无导师学习,哪种学习好了?在有导师学习中,提供给神经网络学习的外部指导信息越多,神经网络学会并掌握的知识越多,解决问题的能力也就超强。但是,有时神经网络所解决的问题的先验信息很少,甚至没有,这种情况下无导师学习就显得更有实际意义。3、死记式学习是指网络事先设计成能记忆
39、特定的例子,在使用时,当给定有关该例子的输入信息时,例子便被回忆起来。在死记式学习中,网络的权值一旦设计好了就不再变动,因此其学习是一次性的(设计),而不是一个训练过程。,2.4 人工神经网络学习,网络的运行一般分为训练和工作两个阶段。训练的目的是为了从训练数据中提取隐含的知识和规律,并存储于网络中供工作阶段使用。,在训练时,可以认为,一个神经元是一个自适应单元,其权值可以根据它所接受的输入信号、它的输出信号以及对应的监督信号(希望的输出)进行调整。一种神经网络权值调整的通用学习规则,如图2.15表示。,2.4 人工神经网络学习,通用学习规则可表达为:权向量Wj在t时刻的调整量 Wj(t)与t
40、时刻的输入向量X(t)和学习信号r的乘积成正比。用数学式表示为,式中,为正数, 称为学习常数, 其值决定了学习速率, 也称学习率。,图中r=r(Wj, X,dj),代表学习信号,该信号通常是Wj和X的函数,也是教师信号dj的函数。,不同的学习规则,对r(Wj, X, dj)有不同的定义,从而形成各种各样的神经网络学习规则:下面对常用学习规则作一简要介绍,其具体应用将在后续各章中展开。,基于离散时间调整时,下一时刻的权向量应为, 2.4.1 Hebbian学习规则 2.4.2 Perceptron(感知器)学习规则 2.4.3 (Delta)学习规则 2.4.4 Widrow-Hoff学习规则
41、2.4.5 Correlation(相关)学习规则 2.4.6 Winner-Take-All(胜者为王)学习规则 2.4.7 Outstar(外星)学习规则,2.4 人工神经网络学习,2.4.1 Hebbian学习规则(1/3),1949年,心理学家D. O. Hebb最早提出了关于神经网络学习机理的 “突触修正” 的假设。该假设指出,当神经元的突触前膜电位与后膜电位同时为正时,突触传导增强,当前膜电位与后膜电位正负相反时,突触传导减弱,也就是说,当神经元与神经元同时处于兴奋状态时,两者之间的连接强度应增强。根据该假设定义的权值调整方法,称为Hebbian学习规则。在Hebbian学习规则中
42、, 学习信号简单地等于神经元的输出,权向量的调整公式为,权向量中, 每个分量的调整由下式确定,上式表明,权值调整量与输入输出的乘积成正比。在这种情况下,Hebbian学习规则需预先设置权饱和值,以防止输入和输出正负始终一致时出现权值无约束增长。此外,权值还要初始化,即在学习开始前(t=0),先对Wj(0)赋予零附近的小随机数。下面用一个简单的例子说明Hebbian学习规则的应用。,2.4.1 Hebbian学习规则(2/3),例2.1 设有4输入单输出神经元网络,其阈值T=0, 学习率=1, 3个输入样本向量和初始权向量分别为X1=(1, -2, 1.5, 0)T, X2=(1, -0.5,
43、-2, -1.5)T , X3=(0, 1, -1, 1.5)T , W(0)=(1, -1, 0, 0.5)T 。,解:首先设转移函数为双极性离散函数f(net)=sgn(net),权值调整步骤为: (1)输入第一个样本X1 ,计算净输入net1,并调整权向量W(1),(2)输入第二个样本X2,计算净输入net2,并调整权向量W(2),(3)输入第二个样本X3,计算净输入net3,并调整权向量W(3),可见,当转移函数为符号函数且时=1,Hebbian学习规则的权值调整将简化为权向量与输入向量的加或减。,2.4.1 Hebbian学习规则(3/3),例2.1 设有4输入单输出神经元网络,其阈
44、值T=0, 学习率=1, 3个输入样本向量和初始权向量分别为X1=(1, -2, 1.5, 0)T, X2=(1, -0.5, -2, -1.5)T , X3=(0, 1, -1, 1.5)T , W(0)=(1, -1, 0, 0.5)T 。,解(续):下面设传递函数为双极性连续函数f(net)=(1-e-net)/(1+e-net),权值调整步骤同上。,(2),(3),比较两种权值调整结果可以看出两种转移函数下的权值调整方向是一致的,但采用连续转移函数时,权值调整力度减弱。,(1),2.4.2 Perceptron(感知器)学习规则,1958年,美国学者Frank Rosenblatt首次
45、定义了一个具有单层计算单元的神经网络结构,称为感知器(Perceptron)。感知器的学习规则规定:学习信号等于神经元期望输出(教师信号)与实际输出之差,式中,当实际输出与期望值相同时,权值不需要调整; 在有误差存在情况下,由于dj、sgn(net)-1, 1,权值调整公式可简化为,式中dj为期望的输出,oj=f(net)。感知器采用了与阈值转移函数类似的符号转移函数,其表达为,因此,权值调整公式应为,感知器学习规则只适用于二进制神经元,初始权值可取任意值。,(2.17),(2.18),(2.19a),(2.19b),(2.19c),2.4.3 (Delta)学习规则,1986年,认知心理学家
46、McClelland和Rumelhart在神经网络训练中引入了规则,该规则亦可称为连续感知器学习规则。规则的学习信号规定为,上式定义的学习信号称为。式中,f(netj)是转移函数f(netj)的导数。显然,规则要求转移函数可导,因此只适用于有导师学习中定义的连续转移函数如sigmoid函数。事实上, 规则很容易由输出值与期望值的最小平方误差条件推导出来。定义神经元输出与期望输出之间的平方误差为,(2.20),(2.21),式中,误差E是权向量Wj的函数。欲使误差E最小,Wj应与误差的负梯度成正比,即,(2.22),式中, 比例系数是一个正常数, E是误差E的梯度, GRADIENT ( GRA
47、D ) 。式(2.19),误差梯度是如何计算的?,2.4.3 (Delta)学习规则,可以看出,上式中与X之间的部分正是式(2.20)中定义的学习信号,Wj中每个分量的调整由下式 (2.24b)计算,权值可初始化为任意值。,(2.23),(2.24a),(2.24b),式(2.23),是如何得到的?,由式(2.21 ),误差梯度为,将此结果代入式(2.22 ),可得权值调整计算式,2.4.3 (Delta)学习规则,下面举例说明学习规则的应用。 例2.2 设有3输入单输出神经元网络,将阈值含于权向量内,故有w0 = T,x0=-1,学习率=0.1,3个输入向量和初始权向量分别为X1=(-1,
48、1, -2, 0)T,X2=(-1, 0, 1.5, -0.5)T, X3=(-1, 1, 0.5, -1)T , d1=-1,d2=-1,d3=1, W(0) = (0.5, 1, -1, 0)T。,解: 设转移函数为双极性连续函数f(net)=(1-e-net)/(1+e-net), 权值调整步骤为: (1)输入样本X1,计算净输入net1及权向量W(1),2.4.3 (Delta)学习规则,解(续): (2)输入样本X2,计算净输入net2及权向量W(2),下面举例说明学习规则的应用。 例2.2 设有3输入单输出神经元网络,将阈值含于权向量内,故有w0 = T,x0=-1,学习率=0.1
49、,3个输入向量和初始权向量分别为X1=(-1, 1, -2, 0)T,X2=(-1, 0, 1.5, -0.5)T, X3=(-1, 1, 0.5, -1)T , d1=-1,d2=-1,d3=1, W(0) = (0.5, 1, -1, 0)T。,2.4.3 (Delta)学习规则,解(续): (3)输入样本X3,计算净输入net3及权向量W(3),下面举例说明学习规则的应用。 例2.2 设有3输入单输出神经元网络,将阈值含于权向量内,故有w0 = T,x0=-1,学习率=0.1,3个输入向量和初始权向量分别为X1=(-1, 1, -2, 0)T,X2=(-1, 0, 1.5, -0.5)T, X3=(-1, 1, 0.5, -1)T , d1=-1,d2=-1,d3=1, W(0) = (0.5, 1, -1, 0)T。,2.4.4 Widrow-Hoff(LMS)学习规则,1962年,Bernard Widrow和Marcian Hoff提出了Widrow-Hoff学习规则,又称为最小均方规则(LMS)。Widrow-Hoff学习规则的学习信号为,