1、神经网络简介,生物神经系统,神经元响应时间- 10-3 secs 人脑中的神经元数目- 1010 每个神经元突触的数目- 104105 人脸的识别时间- 0.1secs 复杂的并行计算以及分布式的表示方式,神经网络模型,由许多“神经元”组成 “神经元”中有许多有权重的连接 多重输出 并行以及分布式的进程 通过修改权重进行“学习”,何时使用神经网络,输入是一个高维的离散值或者实值 输出是一个离散的值或者连续的值 输出一个向量 有可能存在噪声 输入和输出之间的函数关系是未知的,感知器,. . .,w1,w2,wn,w0,x0=1,i=0n wi xi,1 if i=0n wi xi 0 o(x)=
2、-1 otherwise,o,感知器分类,+,+,+,+,-,-,-,-,x1,Linearly Separable,感知器的性质,感知器是一个多输入、单输出的运算系统,表示一个神经元的运算特性 输入的向量为xn=(x1 ,x2 , xn ),其中每个分量xi为第i个神经元的状态 权重向量为wn=(w1 ,w2 , wn ) 感知器的状态值为该感知器的输出值,它由输入向量,权向量和阈值h决定,感知器的学习目标,感知器的学习过程是对权重向量进行调整的过程,其学习目标为其中o由x,w,h决定,1 if x 在 A中 o(x)=-1 if x 在 B中,感知器的学习算法,通过已知的样本进行学习 给出
3、权重的初值 使用已知的样本计算感知器的输出 通过输出值与样本真实值之间的比较来调整权重 用调整后的权重再计算样本的输出,从而再进行权重的调整,直到完成学习目标为止,感知器学习法则,输出正确 (t=o) 权重不变 输出不正确 (to) 改变权重 ! 假阴性 (t=1 and o=0) Add x to w 假阳性 (t=0 and o=1) Subtract x from w,感知器的梯度下降学习算法,连续的输出,我们可以考虑简单的线性模型: 学习目标为均方误差最小: Ew1,wn = dS (td-od)2 其中s为训练样本的全体,t为真实值,o为预测值。,感知器的梯度下降学习算法,感知器的梯
4、度下降学习算法,感知器的梯度下降学习算法,感知器的梯度下降学习算法,初始化权重w为小的随机值 初始化 为0 对于每一个样本计算其输出值o 由输出值可得 调整权重参数 重复上步直到满足误差限制为止,梯度下降学习算法,初始化权重w为小的随机值 初始化 为0 对于每一个样本计算其输出值o 由输出值可得 调整权重参数 重复上步直到满足误差限制为止,梯度下降的随机近似,应用梯度下降的主要实践问题是: 1.有时收敛的速度非常慢(它可能需要数千步的下降) 2.如果在误差曲面上有多个局部极小值,那么不能保证整个过程会找到全局最小值,梯度下降的随机近似,初始化权重w为小的随机值 初始化 为0 对于每一个样本计算其输出值o 由输出值可得 调整权重参数 重复上步直到满足误差限制为止,区别,标准的梯度下降是在权值更新前对所有样本汇总误差,而随机梯度下降的权值是通过考察每个训练样本来更新的. 在标准的梯度下降中,权值更新的每一步对多个样本求和,这需要很多计算.另一方面,因为使用真正的梯度,标准的梯度下降对于每一次权值更新经常使用比随机梯度下降大得多的步长. 如果E(W)有多个局部极小值,随机的梯度有时可能避免陷入某些局部极小值中,因为它使用不同的误差函数(样本的误差函数)来引导搜索.,