收藏 分享(赏)

12-人工神经网络与语音信号处理-11.pdf

上传人:精品资料 文档编号:10027422 上传时间:2019-09-30 格式:PDF 页数:33 大小:348.97KB
下载 相关 举报
12-人工神经网络与语音信号处理-11.pdf_第1页
第1页 / 共33页
12-人工神经网络与语音信号处理-11.pdf_第2页
第2页 / 共33页
12-人工神经网络与语音信号处理-11.pdf_第3页
第3页 / 共33页
12-人工神经网络与语音信号处理-11.pdf_第4页
第4页 / 共33页
12-人工神经网络与语音信号处理-11.pdf_第5页
第5页 / 共33页
点击查看更多>>
资源描述

1、Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY第第12 章章人工神经网络与语音信号处理数字语音处理数字语音处理Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY学习内容一概述二人工神经网络简介三人工神经网络的构成四主要模型和算法五神经网络进行语音识别Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY O

2、FSCIENCE AND TECHNOLOGY第一节 概述 人工神经网络,Artificial Neural Network ,简称ANN 。是在模拟人脑神经组织的基础上发展起 来的计算系统。它由大量计算单元、通过丰富联结构成复杂的网络。在一定程度上反映了人脑功能的若干基本属性,是一种更接近于人的认知过程的计算模型。 ANN模型对语音信号处理特别有意义; 传统的语音信号处理系统属于串行处理,与人的感知过程有很大的差别; ANN模型具有并行、分布式的特性,具有很强的自组织自学习能力,以及很高的容错力和鲁棒性。Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHO

3、NG UNIVERSITY OFSCIENCE AND TECHNOLOGY第二节 人工神经网络简介人工神经网络的三个基本要素: 神经元:ANN的基本处理单元,在网络中称为节点或网点;作用是将若干输入加权求和、再对其非线性处理后输出; 网络拓扑:根据联结方式的不同,分为反馈型网(循环网)和非反馈型网;如果神经元是分层次排列的,每一层神经元只与其上一层神经元相联,称为前馈型网; 网络的训练算法:决定联结各神经元的初始权值和阈值、以及调整这些初始权值和阈值的方法。Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE

4、AND TECHNOLOGY人工神经网络的功能 人工神经网络在语音信号处理中的应用,主要是从听觉神经模型中得到启发; 人耳中,耳蜗约含25000个毛细胞,30000条听神经,耳蜗核约有90000个神经细胞,下丘有400000个细胞,内漆体有360000个神经细胞,听觉皮层约有一千万个神经细胞。 人工神经网络采用类似于生物神经系统的处理方式,以便构成一些具有类似能力的人工系统,但相对于生物神经网络,就像大海里的一杯水。 在语音中的应用,如语音识别能够得到较好的性能 。Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIEN

5、CE AND TECHNOLOGY第三节 人工神经网络的构成人工神经网络由神经元、网络拓扑、学习算法三者构成; 神经元 首先看看生物神经元的基本工作机制:一个生物神经元有两种状态,兴奋状态和抑制状态。平时处于抑制状态的生物神经元,会收到多个其他生物神经元传来的兴奋电位,并且这多个输入电位在该神经元中以代数和的形式叠加,如果输入的兴奋总量超过某个阈值,该生物神经元就会被激发进入兴奋状态,发出输出脉冲并传给其他神经元。Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY1 神经元模型神经

6、元是神经网络的基本计算单元,一般是一种多个输入和一个输出的非线性单元,可以有反馈输入和阈值参数。下页图给出了第 j 个神经元的一组结构,其输出 和N个输入 的关系可表示为:jxy12, ,.,Nxx x1(); () ()Niiiyfuu txt = u 为输入给函数的总量, 为神经元阈值。Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY神经元模型结构图其中 为调节输入连接强度的权。f (u)称为神经元活化函数Activation ,它是一非线性函数。如阶跃函数或S型函数Sigm

7、oid 。按公式计算的活性神经元称为感知器iWuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY2 网络拓扑网络拓扑是指网络的结构以及神经元之间的链接方式。前馈型网络中,各个节点之间的连接服从:1)同层之间不连接;2)处于相邻层的节点之间可进行连接;前馈型神经网络没有记忆功能,它的输出只由当前输入、网络参数和结构决定。反馈型网络输出由当前输入和先前输出,以及网络参数和结构决定,有短期记忆的性质;网络的输入输出称为可见层,其它中间层为隐藏层。Wuhan,430074, P.R. Chi

8、na 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY3 学习算法为了使神经网络对一组输入矢量产生希望的输出矢量,就要进行学习,学习过程是应用一系列的输出矢量,通过原先确定的算法逐步调整网络的权值,达到希望的目标。学习方法可分为监督学习和无监督学习两类,监督学习要求学习矢量集里每输入一矢量对应有一目标矢量,即希望的目标矢量,是利用人的先验知识进行训练的。无监督的学习则是一种自动聚类的过程。Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND

9、 TECHNOLOGY学习算法采用什么样的学习算法和学习的神经网络的结构有关,因此随着各种网络结构的提出,构造出许多种算法。目前大部分算法都是从Hebb学习规则演变而来的,Hebb建议用一个无监督的学习算法逐步调整权值,其基本规则是:当引入一个训练矢量到一对连接着神经元的输入端使之处于兴奋状态时,其连接弧的权值应该加强,用符号表示就是:最著名的和最常用使用的是BP算法。(1) ()ij ij i jWn Wn xx+ =+Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY第四节 用

10、于模式识别的模型与算法1 单层感知器模型由多个神经元单层排列,以单层连接方式构成的神经网络,称为单层感知器神经网络模型,简称SLP(Signal Layer Perceptron)。Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY2 双层感知器双层神经网络模型是一个两层前馈神经网络;一层为输入层,另一层具有计算单元,可以通过监督学习建立模式判别的能力。Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIEN

11、CE AND TECHNOLOGY双层感知器学习的目标是通过改变权值使神经网络由给定的输入得到给定的输出。作为分类器,可以用已知类别的模式向量(向量的维数等于节点数)作为训练集,当输入为属于第j类的特征向量X 时,应使对应于该类的输出神经元的输出为1,而其他输出的神经元的输出为0(或-1)。双层感知器的学习过程与求取线性判别函数的过程是等价的,它只能用于解决线性可分问题,它的特点是学习过程收敛很快,且与初始值无关。Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY3 多层感知器当类

12、别不能用一超平面完善分割时,需用更复杂结构的感知器,即多层感知器 MLP(Multi-Level Perceptron)。MLP除了输入层、输出层之外,还有一个以上的中间隐藏层的前馈神经网络,所有的连接均为相邻层之间的节点的连接,同层之间不连接。输入层不作任何运算,它只是将每个输入量分配到各个输入节点。输入层输出层中间层N*K*M的结构Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY多层感知器对于多层感知器,Werbos 曾于 1974年提出,并且由Rumelhart等人的工作而

13、得到完善和推广的一种学习算法,即著名的BP(Back Propagation) 算法,它是一种修正连接权的算法。所以MLP 的训练大都采用这种反向传播算法。BP算法训练分两步:第一步计算MLP 的输出值;第二步是用BP 算法更新网络的连接权值。假定有N 个输入节点,M 个输出节点;具体步骤1)设置初始权值及阈值为一个小的随机数;2)给定新的输入值 及相应的理想输出信号;di等于 1或 0,取决于是否实际属于 i类。12,Mdd d“12,Nx xx“Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND T

14、ECHNOLOGY多层感知器3)计算当输入 通过网络时的实际输出值,对于网络中任一节点 j,它的输出的计算步骤为:其中,ui是加权后的输入与节点 j 的阈值的总和, j 是节点 j的阈值。网络中节点非线性的传输关系采用 S函数。4)修正每个权值和阈值。从输出节点开始逐步向前递推,直到第一层。12,Myy y“12,Nx xx“1Niijijiux =()1/(1exp( )ij jyfu u= =+(1) ()ij ij j ittx += +(1) ()j jjtt + =+Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY O

15、FSCIENCE AND TECHNOLOGY多层感知器其中, wij是 t 时刻从节点 i 到节点 j 的权; xj 是第i 个输入节点上的输入信号或第 i 个隐节点上的输出信号。 为增益因子或收敛因子( 是一个表示学习速率的常数) 。 j为节点 j 的权值校正因子。当节点 j是输出节点时,当节点 j是隐节点时,其中 dj和 yj分别是输出节点 j的理想输出和实际输出; k是隐含节点j 上一层的全部节点数。5)转移到第 2步重复进行,直到各 wij和 j稳定为止。(1 )j jjkjkkx xW=(1 )( )j jjjjyyd y = Wuhan,430074, P.R. China 中华

16、人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY4 径向基函数神经网络所谓径向基函数(Radial Basis Function ,简称RBF )是指一种有中心的辐射状函数,例如高斯核函数、有中心的二次型函数等。RBF网络的一个重要优点是其学习时的计算量比 MLP网络小得多,甚至可以小两三个数量级。这是因为它的隐藏层参数和输出层的权值可以分别进行学习,前者借鉴某些先验知识进行学习,而后者是SLP网络的学习问题。Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSC

17、IENCE AND TECHNOLOGY径向基函数神经网络径向基函数RBF 网络结构示意图Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY5 自组织特征映射模型Kohonen提出的自组织特征映射模型简称SOFM (Self Organization Feature Mapping)模型,是基于脑科学研究中得到的认识提出的。SOFM模型的训练有多种算法,实际应用中,常常采用一种简化算法。这种简化算法的推导是从神经网络的概念入手的,但最终做法实际上是矢量量化码书生成算法中随机梯度法的

18、变形。Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGYSOFM模型的训练算法SOFM模型基本步骤如下:1) 采用随机扰动法产生一组初始权值:其中N 为输入节点数,它对应着输入矢量的维度;M 为输出节点的个数,同时将M 个输出节点排列成二维阵列,每一个节点表示一个聚类中心。2) 每次输入一个N 维的训练矢量,采用欧几里德距离测度,计算各输入节点到每一输出节点 j 的距离;3) 选择最小 dj对应的、最佳匹配输出节点 j*。21() (), 1,2, ,Njiijidxtwtj M=

19、 =“,1,2, , 1,2,ijWi Nj M=“Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGYSOFM模型的训练算法4) 调整 j* 及相邻节点的权值:其中 j 是包含 j*在内的、与 j*相邻的输出节点; 是一个(0,1)之间的增益函数,其值是随迭代次数t 逐渐递减的。以 j*节点为中心的邻近区域的大小也是随迭代次数逐渐递减的。对其它神经元的权值,则保持不变。5) 如果已达到预定的迭代次数,停止迭代,否则转向2)继续迭代;(1) () () ()ij ij i ijWt

20、Wt xt Wt+ =+ Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY自组织特征映射模型自组织神经网络结构示意图Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY6 时延神经网络时延神经网络简称TDNN (Time-Delay Neural Network)是由时延神经元组成的网络。 时延神经网络应满足:(1)网络是多层的,各层间有足够的连接权,以使网络具有学习复

21、杂非线性判决面的能力。(2)网络有能力表达语音特征在时间上的关系。(3)网络通过学习而提取的特征应具有在时间变化过程中的不变性。(4)学习过程不要求对所学的标记进行精确地时间定位。(5)与训练数据相比,网络的权数应该足够少,从而可使网络能够更好地提取训练数据中的特征。Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY时延神经网络举例英文浊塞音神经识别网络中,引入延时单元D1-DN,称为延时神经元;如图所示。延时神经元Wuhan,430074, P.R. China 中华人民共和国

22、湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY延时神经网络与传统网络不同的是,每一个输入均有一个非时延单元和N 个延时单元;即权值由 1个变成了N+1个权值。例如, 16个输入 (J=16),两个时延单元(N=2) ,加权和总计 16*3=48个。TDNN单元具有把当前输入与以前时刻的输入进行关联和比较的功能。在识别三个浊塞音的 TDNN中,输入层可连续输入 15帧语音特征向量,每帧由 16个谱系数构成,将连续 3帧作为一组输入 (1-3,2-4,3-5, ,12-14,13-15);共 13组。第一隐层,由 8个时延神经元组成,每个时延神经

23、元有 16个输入,N=2;每次处理 3帧谱系数,产生 13组输出。Wuhan,430074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY16个谱系数N=23帧为一组,1帧输入,2、3帧作为时延单元第二隐层由 3个时延神经元组成,对应第一隐藏层的 8个输出,每个时延神经元有 8个输入,N=4;每次处理第一隐层 5帧窗口,产生 9组输出(1-5,2-6, 8-12,9-13)。输出层有三个输出单元,对应三个浊塞音。TDNN结构3个时延神经元9组输出8个时延神经元13组输出Wuhan,430074, P.R

24、. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY7 循环神经网络循环神经网络简称RNN(Recurrent Neural Network ),即有前馈通路,又有反馈通路。反馈通路可将某一层神经元的激活输出经过一个或几个时间节拍之后送到同一层的神经元(例如节点的自反馈通路),或者到较低层次的神经元。在网络中加入反馈通路可以处理与时间有关的状态序列,使得网络可以 “记忆 ”以前输入引起激活特性。这对于处理语音信号是很有用的。处理循环网路时,可以引入 “关联节点(Context node )”的概念。Wuhan,430

25、074, P.R. China 中华人民共和国 湖北 武汉HUAZHONG UNIVERSITY OFSCIENCE AND TECHNOLOGY循环神经网络-关联节点关联节点是一个假设的节点,用来暂存相关节点的输出,并经过一定时延在送到由反馈通路决定的相关节点中。对在第n层的某一个神经元,它在 t 时刻的输出存在其关联节点中,然后在 t+1时刻再输出到有关的神经元。关联节点与其所有输入的神经元之间的互联权称为关联权。下图给出了一个最简单的自反馈与关联节点关系的例子。如果采用关联节点及关联权的表达方式,就可以采用标准的BP 算法对网路进行训练。可以把关联权看作是来自前一层的附加权,并且在调整所有的权之后再更新关联节点的输出。与静态前馈神经网络不同的是,在训练时,循环网络的目标输出(即导师)应当表示成为时间的函数,以便更好地表达网络处理时间过程的能力。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报