收藏 分享(赏)

神经网络误差函数.doc

上传人:dwy79026 文档编号:6084642 上传时间:2019-03-26 格式:DOC 页数:9 大小:396.32KB
下载 相关 举报
神经网络误差函数.doc_第1页
第1页 / 共9页
神经网络误差函数.doc_第2页
第2页 / 共9页
神经网络误差函数.doc_第3页
第3页 / 共9页
神经网络误差函数.doc_第4页
第4页 / 共9页
神经网络误差函数.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、关于误差函数的深入研究姓名:李宏成学号:6720130345摘要我写这篇文章的目的意在补充老师上课中遗留的一些问题以及我自身对神经网络中误差函数的一些看法。文章涉及到 hebb 学习规则中误差函数推导过程,非线性传输函数中误差函数推导过程以及感知机的误差函数证明。如有不足之处,敬请谅解。01.Hebb 学习规则中误差函数的推导过程首先,在推导过程中我们首先要问问自己为什么我们要选择最小二乘?有许多东西都可以被优化,为什么我们要选择这样的指标( )?miTPWF12其次,理论的推导过程是以有监督 hebb 学习规则为前提,采用的传输函数是类似于线性联想器的 purelin 函数。此函数为一过原点

2、且斜率为 1 的直线,因此整个系统的输出结果就可以直接认为是该系统的净输入。在这里,我们先定义如下几个基本参数表示训练的样本数目m表示输入变量p表示实际输出a表示权值参数w于是 就构成了一个训练样本,更一般的 表示第 列训练样本集。所以,, pai,i我们可以用如下表达式来表述成我们所预想的结果:(1.1) npwpa.10为了突出权值在实际输出函数 中的作用和更具有真实性质,以上式(1.1)子我们可a以改写成:Bppanw.10(1.2)其中 是一个偏置项,你可以把偏置项看成是对未建模事物产生的效应的一种估测。B我们举个例子,购买房屋时我们主要是考虑房子每平米的价格,地理位置等主要特征(这里

3、所指的权值) ,也许房子还有其它的特征比如说朝向,楼层高度,是否有电梯等因素。用矩阵形式表示(1.2)可以改写成:iiTiiniw bpWbpa1(1.3)现在我们假设偏置项 服从均值为 0,方差为 的高斯分布,那么它的概率密度函数可i 2以表示为: 22exp1exp21 iTiwii pWabbf(1.4)观察等式(1.4)的右半部分,我们不难看出输出项 服从均值为 ,方差为 的iwiTP2高斯分布。这里假设不同输入对应的偏置项 是彼此独立同分布的,这意味着它们都服ip从均值和方差完全相同的高斯分布。现在我们定义一个似然性函数:1 22exp1exp21 PWaBWL Tw(1.5)由于所

4、有的不同输入对应的偏置项都是彼此独立同分布的,则按上式列拆开就可以改写成: mi iTiwpaL1 2exp2(1.6)似然性越好,拟合的程度也就越高。这里我们通过调节权值矩阵 来使得样本点尽可能的W落在拟合线上或者是它附近区域内。这样我们才能够更精确地预测到所需要得到结果的最大概率。为了使得数学运算简便,我们定义 = 称之为对数似然性函数。这样,lLn上式我们可以进一步得到:mi iTiwpaWl1 22exp2ln(1.7) 221l iTiwmi Wl mi iTiwpaWl1 22lni iTil1 2l21212ln mi iTiwmi pWaWl(1.8)所以,要使得 最大则只需

5、最小即可。在这里我们又定义函数: wLmi iTiwPa1221mi iTiwpWaF(1.9)当 等于零时,这个系统的似然性取得最大值。说明此模型的拟合度达到最佳状态;当 不等于零时,这个系统的似然性不为最大值,因此就说明此模型存在一定的误差。F2其实,在某种意义上来说,似然性可以等价为训练样本与拟合线之间的距离。当训练样本越靠近拟合线,取到这点的概率就越大,相应的似然程度就越高;当训练样本远离拟合线时,取到这点的概率越小,相应的似然程度也就越低。这里,我们不妨将 用矩阵的形式表示,即为:wF21mi TWPpaF(1.10)此函数即为这个模型的误差函数。值得注意的是,此误差函数 的推导过程

6、是建立在WF彼此独立且同为高斯分布的基础之上。但是,这并不能否认其不适用于其他模型。对于式子中其实我们可以将偏置项 看成是整个系统的次要特征项(其中权值矩bPWpaTb阵 是这个系统的主要特征矩阵) ,或者你也可以认为它就是误差项。由于不同输入向量对应着不同的偏置向量 且 是彼此独立且同高斯分布的,所以,根据中心极限定理对ii大量离散 进行抽样所得的抽样分布依然是服从高斯分布的。实际上,我们生活中有很ib多的问题都可以近似地认为是高斯分布比如说噪声的概率密度分布就可以近似地认为是服从正态分布的。2.非线性误差函数的推导过程上述所介绍的最小二乘是建立在偏置项满足高斯分布且独立同分布的情况下,使似

7、然性达到最大值,从而判断出误差函数 的具体解析式,它实际上是一种基于线性回归WF思想的建模方法。在某些情况下应用线性回归能够有效地解决一些问题,但是通常情况下应用线性回归解决问题将会是一个很糟糕的主意。如图所示:其中蓝色小圆点表示原来的训练样本集,此时运用线性回归拟合出一条蓝色的直线。通过图形我们可以看出每个蓝色小圆点都均匀地分布在蓝色拟合线附近,拟合的程度是比较理想的。因此我们能够预测下一点在哪个区域内出现的概率最大。但是,当我们向训练集里添加三个用红色小圆点表示的新的训练样本并且这三个样本与原样本距离较远时,通3过对全局的拟合我们可以得出红色的拟合线。由图中我们可以非常清晰地看出新生成的训

8、练样本与红色拟合线之间的距离变大了,这意味着 增大了并且随着新增样本点离原WF样本点的距离增大导致误差函数也变得越来越大。因此,在这种情况下采用线性回归来说是极不明智的选择。下面我们来引入非线性回归。现在我们来假设一种简单的情况:1.设目标向量 中每个元素 不是 就是 。iTijT012.我们希望输出向量 中的每个元素 ,至少不能比 小太多,比 大太多paiwija,01(这个其实就相当于净输入通过一个类似于 hardlim 函数) 。3.由于我们现在研究的是非线性回归问题,所以这里我们不会选择线性函数。(比如说purelin 函数)根据上述 3 个假设要求,我们这里选取 ,也就是 logsi

9、g 函数。其实选bPWTepa1择这个函数是非常具有代表性的,它是研究伯努利分布回归所得到的指数分布函数(从指数分布簇里得来的) ,而大量的伯努利实验所得到的离散采样点可以近似看成服从高斯分布的,而且通过伯努利分布回归的进一步推广可以导出 softmax 回归算法。此算法的特点是能够解决 k 重分类问题所以此函数意义可想而知。这里由于篇幅所限就不多说了。回归正题:为了求非线性回归的误差函数,就必然牵扯到似然性,而似然性在某种程度上可以等价为预测点所处的最大概率区间。因此我们定义:表示为在权值矩阵 下,输入向量 ,目标输出向量 距离拟合线的概率。WpTP;/ pWT这个概率越大就表示样本越接近拟

10、合线也就是说取到这点的概率也就越大。对于每一列中每一个元素我们可以改写成:即表示每一列中每一输入对应每一列每一目标输出距离拟合线的概率。jijijwpTP;/因此,我们需要使得:ijjijij a,/1(2.1) ijjijijwpTP1,/0(2.2)两式合并可以写成:ijij TijTjijij a1,/(2.3)现在我们设 ,假设每对输入输出向量都是独立互不影响的,则有:WlLn4mi TiWTiWmiiiWW iipapTPpTPl 111;/;/(2.4)然后对等式两边取自然对数得到: mi iwiiwi paTpaTL1 1lnln(2.5)对于上式来说,我们的目的是需要找到一个最

11、佳的权值矩阵 使得似然性 取得最大WL值。因此我们这里可以采用与梯度下降算法相同的批梯度上升算法使得 最大化。现在对权值矩阵 的偏导:WpaTpaTLiwimiiwi 11(2.6)papaWLiwiimiiwi11papaTTpaTpaL iwi iwiiiiwiiiwmi 11mi iwii paW1(2.7)这里将 带入(2.7) ,则我们可以得到:bPWTepa1mi bPWbPWbiwi iTiTiTeepaL115(2.8)mi bPWbPWbPiiwi iTiTiTieepaL1 21mi bPWbPWiiwi iTiTiTeepaL11mi iiwipa1(2.9) 当 时,

12、取得极值点,必须使得 。当此式不为零的时0WL01miiwipaT候, 就不可能取得到最大值,似然性就不可能达到最佳状态。换句话来说,此模型就产生了误差。因此 即为这个非线性回归模型的误差函数。这miiwiUpaTF1里特别需要注意与非线性误差函数 的区别,它们看起来好像是21mi TWP相同的但是实际上是两个完全不同的算法所对应的误差函数,这是因为它们采用的传输函数是不一样的。然后,我们根据梯度上升公式: (其中 为学习速率) ,将上式Loldnew(2.9)带入得:mi iiwioldnewPpaTW1(2.10)公式推导到这里,大家是不是觉得这个公式非常熟悉?其实我们这里可以把 logs

13、ig 函数换成 hradlim 函数,因为它们的值域和定义域都是相同的。但是 hardlim 函数比较特殊,它输出的不是 0 就是 1,缺少变数。因此它的误差函数 取值就为-miiwiUpaTWF161,1,0。我们这里采用随机梯度上升算法,因此上式就可以改写成:iiwioldnewPpaTW(2.11)我们不妨将(2.11)写成ioldnewe(2.12)其中 。其实,式(2.12)就是一个带学习速率的感知机学习规则。 paTiwii3.总结关于误差函数的总结,我觉得也是对于神经网络的总结。神经网络不同于某些确定性的学科可以通过固定的模式和编程使得我们获得正确的结果与答案,这样做固然是正确的

14、但是却缺少变数。而神经网络的魅力就在于误差函数的存在导致结果的不确定性从而能够产生许多种未知的结果。误差是把双刃剑,一方面阻碍了问题的解决;但是我们不妨反过来想想:如果使若干个具有较大误差的多层神经网络模型经过大量训练使得误差减小到一定程度,然后把所学习到的“知识”和“经验”传递到下一层网络中,再把这层误差进行放大然后再经过大量训练使得误差减小然后再将所学习的“知识”和“经验”传递到下一层,如此迭代下去,这个神经网络是不是会变得越来越“聪明”呢?是不是判别事物的速度会越来越快呢?考虑问题是不是更全面呢?这里再次感谢 Arthur Samuel 先生对人工智能做出的杰出贡献,我认为他的西洋棋程序是第一次有利的反驳了计算机只能朝着人类设定的方向发展。其实,人类的发展就是一个犯错误然后改正学习吸取经验教训到再犯错误的循环过程。那么计算机何尝不可以这样呢?

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 医学治疗 > 神经内外科

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报