1、基于 PCNN 的语谱图特征提取在说话人识别中的应用基于 PCNN 的语谱图特征提取在说话人识别中的应用马义德袁敏齐春亮刘悦刘映杰(兰州大学信息科学与工程学院,兰州 730000)E-mail:摘要该文首次提出了一种将有生物视觉依据的人工神经网络脉冲耦合神经网络(PulseCoupledNeuralNetwork,以下简称为 PCNN)用于说话人识别领域的语谱图特征提取的新方法 .该方法将语谱图输入到 PCNN 后得到输出图像的时间序列及其熵序列作为说话人语音的特征,利用它的不变性实现说话人识别.实验结果表明,该方法可以快速有效地进行说话人识别.该文将 PCNN 引入到语音识别的应用研究中,开
2、拓了信号处理中两个极为重要的部分语音信号处理和图像信号处理结合的新领域,同时对于 PCNN 的理论研究和实际应用具有非常重要的现实意义.关键词脉冲耦合神经网络说话人识别语谱图特征提取时间序列熵序列文章编号 10028331 一(2005)20008104 文献标识码 A 中图分类号 TP391ResearchofFeatureExtractionfromSpectrogramBasedonPulseCoupledNeuralNetworkinSpeakerRecognitionMaYideYuanMinQiChunliangLiuYueLiuYingjie(TheSchoolofInforma
3、tionScienceEngineeringofLanzhouUniversity,Lanzhou730000)Abstract:ThispaperproposesaninnovativemethodoffeatureextractionofSpectrogramusingPulseCoupledNeuralNetwork(PCNN)inspeakerrecognitionforthefirsttime.UsingtheinvariablecharacteristicsofPCNNtimeseriesandentropyseriesofSpectrogram,peoplecanextractt
4、hefeatureofspeakerSspeechandrecognizethespeakersrapidlyandeffectively.Thevalidityofthismethodiswellverifiedbyauthorsexperiments.ItissignificantfortheoreticalresearchandapplicationofPCNNtobringPCNNintospeechrecognition.Atthesametimethispaperenvisagesacombinationoftwoimportantpartsofsignalprocessingsp
5、eechandimageprocessing.Keywords:PulseCoupledNeuralNetwork,speakerrecognition,spectrogram,featureextraction,timeseries,entropyseries1 引言语音是由人类各个发音器官生理运动共同作用而产生的.人讲话时使用的发声器官,比如舌,牙齿,喉,肺,鼻腔和声道在尺寸和形态方面每个人的差异很大,所以不同人对同一个字的发音会有不同的波形,导致任何两个人的声纹图谱也有差异.即使是同一个人对同一个字在不同时间发音在波形上也有不同程度的变化.这就使语音识别变得非常困难.脉冲耦合神经网络 P
6、CNN(PulseCoupledNeuralNetwork)是源于对小型哺乳动物视神经研究而提出的一种新型神经网络模型.它是由脉冲耦合神经元构成的二维单层神经元阵列模型,广泛应用于数字图像处理,数字图像识别,决策优化等方面.该文提出了一种基于 PCNN 时间序列的语谱图特征提取的新方法:它将通过 Spectrogram 算法 121 得到的语谱图送入 PC.NN,PCNN 输出一个描述每次相同图像激发(点火)的神经元数目的特征时间序列.用这个时间序列的特征(称之为图标)表示一幅图像相比于图像本身的数据量减少了很多,同时 PCNN 特性保证了该图标具有时间,尺度等不变性和很好的鲁捧性.实验结果表
7、明,该方法在语音识别和说话人识别方面具有很好的应用前景.2 语谱图介绍语谱图是语音信号短时频谱的时间一强度表示.语音信号首先被分割为相互重叠的若干段,对每一段加窗处理,然后进行短时傅立叶变换,得到这个信号的短时频谱估计.语谱图的纵轴包含时间函数的谱估计.在研究中,笔者选择长度为 256,交叠部分为窗长 1/2 的窗函数来生成语谱图.窗函数使用Hanning 窗:):卜啷)(11)l0(nO 或 nN)信号 S(t)的短时傅立叶变换(STFF)定义如下:|s(=s(T) 埘(卜 T)e-i2dr(2)基金项目:甘肃省自然科学基金(编号:YS021 一 A2200910);兰州大学“985 工程“
8、一期第二批特色研究方向学科建设资助项目作者简介:马义德(1963-),男 ,甘肃临夏人,教授,博士生导师 ,长期从事计算机应用系统,生物信息数字图像处理,通信与信息,DSP 与信号处理等方面的教学与科研工作.袁敏(1980-),女,硕士研究生,主要研究方向为数字信号处理,语音识别,神经网络等.齐春亮(1972 一),男,硕士研究生,主要研究方向为数字图像处理,神经网络,分形等.刘悦(1980-),男,硕士研究生,主要研究方向为语音识别.计算机工程与应用 2005.208l其中( )为某种窗函数 .在任意时刻 n 的离散时间 STFTr 表达式如下:a1r1f,“S(n,k)=s(m)(nm)e
9、 一(3),r 一离散 ST 兀可以通过频率抽样获得:S(n,k)=s(I(4)其中,是窗函数中数据点的总数,也是频率抽样因子.把(4)式带入(3)式,获得了离散 STFTr:+*一止一1nrS(n,)=s(m)w(nm)e(5)#一Spectrogram 算法是一种分析算法,它产生一维语音信号的二维图像形式的输出.语谱图是用时间 n 作横坐标,频率1)作纵坐标,将能量密度谱函数的值表示为灰度级所构成的二维图像.这种反映语音信号动态频谱特性的时频图在语音分析中具有重要的实用价值,被称为“可视语言“. 从语谱图上可以得到一些频域分析参数(如共振峰,基音周期等)随语音发生过程(时间)的变化情况 ;
10、还可以得到能量随语音发生过程(时间)的变化情况,图像的每个像素的灰度值大小表示相应时刻和相应频率的信号能量密度.图中声道的谐振频率表示成黑带,条纹结构反映了浊音随时间的变化,而清音一般信号较弱(如“s“)或持续时间较短(如“b“),在语谱图上不容易看消楚.从语谱图上还可以看到音调的变化,如“O“是阳平,反映在语谱图上就是向下弯;“l“是阴平,反映在语谱图上就是平行于时间轴.由此可以区别浊音及清音,辅音(或声母)以及不同种类的声调等.语谱图因其不同的黑白程度,形成不同的花纹,被称作“声纹“.不同的讲话者的语谱图具有不同的声纹.据此可以区别说话人,这与不同的人有不同的指纹,根据指纹可以区别不同的人
11、是同一个道理.3 基于脉冲耦合神经网络(PCNN)的语谱图特征提取算法3.1PCNN 模型原理描述PCNNI1 的基础是 Eckhorn 的连接域模型 13l.一种传统的PCNN 神经元模型如图 1 所示.接收部分接收到来自其它神经元与外部的刺激输入后,将其通过两条通道传输:一条通道称为 F 通道,另一条通道称为 L 通道.馈送输入通道的脉冲响应函数随时问的变化比 L 通道慢,对应着外界的输入 ,而链接输入 L 是对相邻神经元输出脉冲的局部抽样,链接接收域的半径通常很小.链接输入加上一个正的偏移量,然后和馈送输入相乘形成内部活动项 U.脉冲发生器由一个阶跃函数和一个衰减的内部阈值 O 组成.阀
12、值函数图 1 脉冲耦合神经元模型如果把二维图像矩阵理解为 MN 个 PCNN 神经元模型,每个神经元按照下列等式进行迭代循环运算,实现神经网络的各种功能:822005.20 计算机工程与应用=exp(一,)【nl】十,Zm 州 Y 一 11nl=exp(一 Ot)【凡一 l】十2,Yf【凡一 1】1n=(1+3L)y=lifor0otherwiseOnl=exp(一饯.)8【nl】+.y【nl1(6)(7)(8)(9)(10)(6)式中是输入刺激信号,这里取图像像素构成的矩阵中第 i个像素的灰度值.是第 i,个神经元的馈送输入,是链接输入,代表神经元的内部活动项,13 为耦合系数,利用链接输入
13、对馈送输入进行调制,它是 PCNN 神经元之间进行通信的关键.钆为动态门限阈值,它与内部活动项相比较得到神经元的输出.y 是 PCNN 神经元的脉冲输出值 ,这里定义神经元的输出由 0 变 l 为神经元的点火(即输出脉冲).3.2 基于 PCNN 的语谱图特征提取Johnsont41 在原有的 5 个迭代等式上 ,又增加了如下等式:g(n)= Y(n)其中 Y(n)是在 n 时刻点火神经元的输出 .点火时刻信号 g(n)统计了 n 时刻 PCNN 发出脉冲的神经元总数,即每次迭代过程中整幅图像中点火的神经元的总数,Y(n)不仅包含了图像的灰度分布信息,更重要的是它还包含了图像中相邻像素之间的相
14、对位置信息,即图像的空间几何信息,这恰恰是纹理图像的个性特征所在.语谱图可以看成是一种纹理图像,它的个性特征主要表现在像素间的空间几何特征上.所以,在所提取的特征中,像素关系的几何特性必须得到充分的体现,这样才能提取说话人的语音个性特征.该文利用 PCNN 对语谱图特征提取就是基于以上这个事实的.不同说话人对同一个词发音的语谱图纹理有所区别,每幅语谱图都有自己的特征时间序列,这些时间序列具有某种不变性,那么从语谱图中提取出的这个特征就可以很好地描述说话人的语音特征,可以将它作为识别或分类的特征向量,输入到模式识别单元,进行识别.3-3 算法原理描述及实验设置该文使用一个新的时间信号:g(n)=
15、Hp(n),Hp(n)为 PCNN输出二值图像 Y(n)的熵.熵是图像统计特性的一种表现形式,反映了图像包含信息量的大小.具体地也就是 PCNN 在每次循环迭代运算时,计算其分割输出的二值图像 l,【州的熵值 H(P):H(P)_-PIlog2PIP0log2P0(12)其中 Jpl,Pn 分别表示 y【 n】中像素为 l,为 O 的概率 .PCNN的输出 y】是脉冲序列,其输出的二值图像的熵值就是一个随迭代次数变化而变化的时间序列.不同的图像经过一定的迭代之后,其激活的神经元的个数和分布将会不同,从而使 PCNN的输出 Y(n)出现变化 ,其对应相同迭代次数时 ,输出 Y(n)的熵不同,即某迭代时间段内 g(n)分布曲线不同.实验框图如图 2 所示.语音信号通过一个麦克风,用录音设备录制获得.录制的语音以 wave 格式保存.语音信号的特性是 ll025Hz,16bit,单声道.用命令“wavread“来读取,可以把.wav 文件转化成矢量的形式.然后用时一频 Spectrogram 算法来处理这个语音信号矢量,就可以把语音信号转换成一个二维图像表示.这个二维图像就是所需要的语谱图.