1、Sigmoid 函数,即 f(x)=1/(1+e-x)。神经元的非线性作用函数。人工神经网络的学习算法-BP 算法神经网络的学习是基于一组样本进行的,它包括输入和输出(这里用期望输出表示),输入和输出有多少个分量就有多少个输入和输出神经元与之对应。最初神经网络的权值(Weight )和阈值(Threshold)是任意给定的,学习就是逐渐调整权值和阈值使得网络的实际输出和期望输出一致。我们假设样本有 P 个,输入层有 N 个神经元,隐含层有 K 个神经元,输出层有M 个神经元。Xj 为输入层神经元 j 的输入,Hj 为隐含层神经元 j 的输出,Fj 为输出层神经元 j 的实际输出,Rj 为输出层
2、神经元 j 的期望输出,前一层的输出即为后一层的输入。Whji 是输入层神经元 i 与隐含层神经元 j 之间的连接权值,Thj 是隐含神经元 j 的阈值,Woji 是隐含层神经元 i 与输出层神经元 j 之间的连接权值,Toj 是输出神经元 j 的阈值。神经元的非线性作用函数是 Sigmoid 函数,即 f(x)=1/(1+e-x)。神经元与神经元模型的 s 特性函数假如人的记忆思维认知情感等特性最终只是大量神经元的整体行为,那么了解单个神经元的特性就是理解大脑活动必须的一个过程。本帖试图从神经元以及其链结入手,梳理系统一下这一段时间看到的有关神经网络方面的常识性知识。神经元我们知道,尽管不同
3、神经元的形态差异很大,但其结构却基本一致,大体上可分为胞体,树突和轴突。其中树突负责接受输入信号;轴突负责输出信号;而胞体负责加工处理信号。树突和轴突在形态和功能上有很大的差异:1,树突一般较短,而轴突较长。2,树突常有多个,而每一个都是胞体的直接延伸,然后再分叉;而轴突只有一个,尽管轴突末端也有分叉结构。3,无论是轴突还是树突,它们传递信息的方式都是峰值电脉冲。不过树突只能由树突末梢传向胞体,而轴突只能由胞体传向轴突末梢。也就是说,它们都是单向传递。4,由于树突的结构形态,不同的树突传递的电脉冲峰值可以不同。同样,由于轴突的结构形态,轴突传递的电脉冲峰值是一样的,尽管这个电脉冲会因轴突分叉分
4、别传递给不同的轴突末梢。5,对于大多数神经元来说(假如不能说全部的话),树突传送的电脉冲信号会随着树突长度而衰减;而轴突传递的信号则保持峰值不变,也就是说,所有的轴突末梢信号强度都是一样的。至于为什么树突和轴突会有这么大功能性差异,他们的生理基础是什么,我现在看到的资料还没有给出下一层细节上的解释(除了膜电位机理)。好在了解神经元主要特性不需要探究那么深,这些初步知识已经基本够用了。至于胞体接受到不同树突不同峰值输入信号后,它是如何响应并输出一个信号,这个输出信号和输入信号是什么函数关系,也要先放一放再说。接下来的思路是,峰值信号是如何从一个神经元的轴突末梢,传递到另一个神经元的树突末梢上?这
5、个问题的关键就是突触和囊泡。我们知道,轴突末梢的突触和树突末梢并不是直接联结在一起,它们之间有一个微小的间隙;当电信号到达后轴突末梢的突触时,就刺激释放了囊泡(至于释放多少是和电信号峰值有关)到突触裂隙中,而囊泡里面化学物质刺激激发树突末梢上的离子门开关状态,而离子门的开关导致了树突末梢的电位变化,这样就完成一个神经元影响另一个神经元的过程。那么,囊泡里面的化学成分有哪些呢?最主要的化学成分是谷氨酸(味精主要成分),其次是 -氨基丁酸(GABA)。这两种化学成分的功效是截然不同的,其中谷氨酸能够引起下一个神经元兴奋,而 -氨基丁酸则会抑制下一个神经元兴奋程度。不过,这 2 种成分不是同时存在于
6、一个神经元轴突末梢突触内(至少现在还没有发现这样的例子)。也就是说,要么一个神经元向与它轴突末梢接触的其他神经元传递兴奋信号,要么传递抑制信号。但这并不意味着某个神经元就是要兴奋或者抑制,因为它树突末梢接受的信号即可以是兴奋信号,也可是抑制信号,毕竟树突有多个,可以有不同的输入。至于神经元到底是兴奋还是抑制,就要看哪方占优势了。拥有谷氨酸的神经元和 -氨基丁酸的神经元比例大约是5:1,脑中大多数神经元都是这 2 种类型。那么,我们人类最基本的能力,记忆,是一个什么机理呢?这就要涉及到一个称为 NMDA 的离子通道,它是离子门里一种。离子门有很多种,最基本的就是保持神经元膜电位那种控制纳钾离子浓
7、度的离子门,它让膜电位保持在-70 毫伏上(神经元内部相对于外部)。相对于轴突突触分为兴奋和抑制 2 种类型,树突上也分别对应了 2 种不同的离子门来作为受体。其中兴奋性受体又分为几类,其中大多数兴奋性受体只需谷氨酸这一个条件即产生反应。很有意思的是,有这么一种受体需要 2 个条件,即谷氨酸和膜电位联合刺激才能反应,这种特殊的离子门受体不在树突末梢的尖端,而位于树突末梢中段靠近尖端的侧面。这个形态结构导致了这样一个结果,仅有谷氨酸和峰值膜电位,都不能打开 NDMA 离子门;必须离子门接收到了谷氨酸刺激,同时它所在的树突末梢尖端单独的兴奋受体传递过来一个膜电位峰值,NDMA 离子门才能够打开。那
8、么 NDMA 离子门打开后会形成一个什么样的效果呢?NDMA 离子门不但可以让钠钾离子通过,因而产生一个更强的膜电位峰值;同时它还会让钙离子进入到树突末梢内。而钙离子进入后引起了我们现在还无法知道的一些复杂化学反应,最终结果是让 NDMA 离子门保持较长时间开放;而开放时间的长短又与 NDMA 离子门接受刺激强度和频繁程度有关。当前认为,这就是人类会有记忆和学习这种能力的在神经元生理学层次的基本机理,也是神经元能够构成神经网络从而具有复杂功能的原因。人工神经元模型对此,人工神经网络对神经元作出了以下简化假设:1,在不同输入信号刺激综合下,神经元自身机制决定神经元输出信号状态。2,神经元输出的信
9、号既可以起兴奋作用,也可以起抑制作用。3,神经元和其他神经元存在耦合联结,而耦合强度可随着训练而改变。这些假设,转化为数学语言,就是:1,存在一个向量 X,对应于不同输入信号。2,存在一个向量 W,对应于不同输入信号的偶和强度。因而,这些信号对神经元的刺激可表示为 net=X.W而神经元对信号响应函数可表示为 O=f(net).其中 O 是输出信号。现在让我们关注 f 函数,这也是导致我写这个帖子的最初原因。net 反应函数由于 f 函数是神经元对输入信号的反应特性,当然最好有实验数据,可这个实验很难做到。首先是伦理问题,在一个活人身上做脑部实验,让人感觉不舒服,尤其一些基督国家;其次是技术问
10、题,人们不太容易分离出一个活的单独神经元来测量它的输入输出关系,这让利用猿猴做实验也产生了一些难度;假如在神经网络中做这些实验,又不容易控制各种影响因素,另外,这样测定的性质是不是单独神经元的也有争议。总之是非常让人头疼。不过,人们还是利用有限的机会做了一些测定,得到一些数据。以下几个函数就是经过简化的数学关系。1,线性函数。呵呵,这是人类的老办法,先假设线性关系。假如简单的效果很好,又何必搞得那么复杂呢。2,非线性斜面函数。这个就要复杂一点了。3,阶跃函数。和 2 差不多,数学上处理起来简单点。4,s 型函数。采用这个函数最大的好处是能够用微积分,这在处理神经网络问题上有很大优势。神经元最常用的一个 s 型函数叫做 Logistic 函数,它的一般形式是 f=a+b/(1+e(d*net).这就是传说中的神经元反应函数,大名鼎鼎的 s 型。其他领域的 s 型用 s 型函数来模拟一些输入输出关系并不罕见,现在回想一下,在微观经济学里面的规模效应就算一个,可惜我一直没有重视它。另外,远景理论中利益的获得损失对人风险意识影响不对称性,也可看作 Logistic 函数的变种。尽管在那里只是一个小小的不对称,可为了让这个不对称能够站住脚,那些经济学家却付出了相当大的努力,设计出让人叹为观止的精巧实验,来证明这一点。