1、实验题目1.基于MATLAB的语音信号时域特征分析2.基于MATLAB分析语音信号频域特征小组合作否姓名 班级 信息安全 学 号一、 实验目的1. 本实验要求掌握时域特征分析原理,并利用已学知识,编写程序求解语音信号短时过零率、短时能量、短时自相关特征,分析实验结果,并能掌握借助时域分析方法所求得的参数分析语音信号的基音周期及共振峰。2.本实验要求掌握傅里叶分析原理,会利用已学的知识,编写程序估计短时谱、倒谱,画出语谱图,并分析实验结果,在此基础上,借助频域分析方法所求得的参数分析语音信号的基音周期或共振峰。二实验环境一台装 cool edit pro2.1 和 MATLAB 的计算机。三、实
2、验内容与步骤实验原理:1.窗口的选择通过对发声机理的认识,语音信号可以认为是短时平稳的。在 550ms 的范围内,语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取 1030ms。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。图 1.1 给出了这两种窗函数在帧长 N=50 时的时域波形。0 20 40 6000.20.40.60.811.21.41.61.82 一 一 一samplew一n一0 20 40 6000.10.20.30.40.50.60.70.80.91 hanming一samplew一n一图 1.1 矩形
3、窗和Hamming窗的时域波形矩形窗的定义:一个N点的矩形窗函数定义为如下1,0()nNwn其 他hamming窗的定义:一个N点的hamming窗函数定义为如下0.54.6cos(2),01,()nNNn其 他=这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图1.2):矩形窗的主瓣宽度小(4*pi/N ) ,具有较高的频率分辨率,旁瓣峰值大(-13.3dB) ,会导致泄漏现象;汉明窗的主瓣宽 8*pi/N,旁瓣峰值低( -42.7dB) ,可以有效的克服泄漏现象,具有更平滑的低通特性。因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。表 1.
4、1 对比了这两种窗函数的主瓣宽度和旁瓣峰值。0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-80-60-40-200 一 一 一 一 一 一 一一 一 一 一 一 (f/fs)一一/dB0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-100-500 Hamming一 一 一 一 一一 一 一 一 一 (f/fs)一一/dB图1.2 矩形窗和Hamming窗的频率响应表1.1 矩形窗和hamming窗的主瓣宽度和旁瓣峰值2.短时能量由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。因此对语音的短时能量进行分析,可以描述
5、语音的这种特征变化情况。定义短时能量为:,其中 N 为窗长 2 21()()nnmmNExwxw特殊地,当采用矩形窗时,可简化为:2()nmx图 1.3 和图 1.4 给出了不同矩形窗和 hamming 窗长的短时能量函数,我们发现:在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响。hamming 窗的效果比矩形窗略好。但是,窗的长短影响起决定性作用。窗过大(N 很大) ,等效于很窄的低通滤波器,不能反映幅度 En 的变化;窗过小( N 很小) ,短时能量随时间急剧变化,不能得到平滑的能量函数。在 11.025kHz 左右的采样频率下, N 选为100200 比较合适
6、。短时能量函数的应用:1)可用于区分清音段与浊音段。 En 值大对应于浊音段,En 值小窗函数 主瓣宽度 旁瓣峰值矩形窗 4*pi/N 13.3dBhamming 8*pi/N 42.7dB对应于清音段。2)可用于区分浊音变为清音或清音变为浊音的时间(根据 En 值的变化趋势) 。3)对高信噪比的语音信号,也可以用来区分有无语音(语音信号的开始点或终止点)。无信号(或仅有噪声能量)时,En 值很小,有语音信号时,能量显著增大。0 200 400 600 800 100 1200 1400 1600 1800-101sample一一一一0 200 400 600 800 100 1200 140
7、0 1600 1800024sample一一一一N=500 200 400 600 800 100 1200 1400 1600 18000510sample一一一一N=1500 200 400 600 800 100 1200 1400 1600 18000510sample一一一一N=2500 200 400 600 800 100 1200 1400 1600 180001020sample一一一一N=3500 200 400 600 800 100 1200 1400 1600 180001020sample一一一一N=4500 200 400 600 800 100 1200 140
8、0 1600 1800-101sample一一一一0 200 400 600 800 100 1200 1400 1600 1800012sample一一一一N=500 200 400 600 800 100 1200 1400 1600 1800024sample一一一一N=1500 200 400 600 800 100 1200 1400 1600 18000510sample一一一一N=2500 200 400 600 800 100 1200 1400 1600 18000510sample一一一一N=3500 200 400 600 800 100 1200 1400 1600 1
9、8000510sample一一一一N=450图 1.3 不同矩形窗长的短时能量函数 图 1.4 不同 hamming 窗长的短时能量函数 3短时平均过零率过零率可以反映信号的频谱特性。当离散时间信号相邻两个样点的正负号相异时,我们称之为“过零 ”,即此时信号的时间波形穿过了零电平的横轴。统计单位时间内样点值改变符号的次数具可以得到平均过零率。定义短时平均过零率:sgns(1)()nmZxxmwn其中 为符号函数, ,在矩形窗 1,()0gxn条件下,可以简化为1sn()s(1)2nmNZxm短时过零率可以粗略估计语音的频谱特性。由语音的产生模型可知,发浊音时,声带振动,尽管声道有多个共振峰,但
10、由于声门波引起了频谱的高频衰落,因此浊音能量集中于 3KZ 以下。而清音由于声带不振动,声道的某些部位阻塞气流产生类白噪声,多数能量集中在较高频率上。高频率对应着高过零率,低频率对应着低过零率,那么过零率与语音的清浊音就存在着对应关系。.图 1.5 为某一语音在矩形窗条件下求得的短时能量和短时平均过零率。分析可知:清音的短时能量较低,过零率高,浊音的短时能量较高,过零率低。清音的过零率为 0.5 左右,浊音的过零率为 0.1 左右,两但者分布之间有相互交叠的区域,所以单纯依赖于平均过零率来准确判断清浊音是不可能的,在实际应用中往往是采用语音的多个特征参数进行综合判决。短时平均过零率的应用:1)
11、区别清音和浊音。例如,清音的过零率高,浊音的过零率低。此外,清音和浊音的两种过零分布都与高斯分布曲线比较吻合。2)从背景噪声中找出语音信号。语音处理领域中的一个基本问题是,如何将一串连续的语音信号进行适当的分割,以确定每个单词语音的信号,亦即找出每个单词的开始和终止位置。3)在孤立词的语音识别中,可利用能量和过零作为有话无话的鉴别。0 2000 4000 6000 8000 10000 12000 14000 16000 18000-0.500.51sample一一一一0 2000 4000 6000 8000 10000 12000 14000 16000 1800002468sample一
12、一一一0 2000 4000 6000 8000 10000 12000 14000 16000 1800000.10.20.30.40.5sample一一一一一一一图 1.5 矩形窗条件下的短时平均过零率4、短时自相关函数自相关函数用于衡量信号自身时间波形的相似性。清音和浊音的发声机理不同,因而在波形上也存在着较大的差异。浊音的时间波形呈现出一定的周期性,波形之间相似性较好;清音的时间波形呈现出随机噪声的特性,样点间的相似性较差。因此,我们用短时自相关函数来测定语音的相似特性。短时自相关函数定义为:()()()()nmRkxwnxmkwnk令 ,并且 ,可以得到:1 0()()()()()(
13、)()Nknm mkxnxnkxnwxnmkw 图 6 给出了清音的短时自相关函数波形,图 7 给出了不同矩形窗长条件下(窗长分别为 N=70,N=140,N=210,N=280)浊音的短时自相关函数波形。由图 1.6、图 1.7 短时自相关函数波形分析可知:清音接近于随机噪声,清音的短时自相关函数不具有周期性,也没有明显突起的峰值,且随着延时 k 的增大迅速减小;浊音是周期信号,浊音的短时自相关函数呈现明显的周期性,自相关函数的周期就是浊音信号的周期,根据这个性质可以判断一个语音信号是清音还是浊音,还可以判断浊音的基音周期。浊音语音的周期可用自相关函数中第一个峰值的位置来估算。所以在语音信号
14、处理中,自相关函数常用来作以下两种语音信号特征的估计:1)区分语音是清音还是浊音;2)估计浊音语音信号的基音周期。0 50 100 150 200 250 300-0.08-0.06-0.04-0.0200.020.040.060.080 50 100 150 200 250 300-0.1-0.0500.050.1一一kR(k)一一图 1.6 清音的短时自相关函数0 20 40 60 80 100 120 140 160 180 200 220-505一一kR(k)N=700 20 40 60 80 100 120 140 160 180 200 220-505一一kR(k)N=1400 2
15、0 40 60 80 100 120 140 160 180 200 220-10010一一kR(k)N=2100 20 40 60 80 100 120 140 160 180 200 220-10010一一kR(k)N=280图 1.7 不同矩形窗长条件下的浊音的短时自相关函数5、时域分析方法的应用1)基音频率的估计首先可利用时域分析(短时能量、短时过零率、短时自相关)方法的某一个特征或某几个特征的结合,判定某一语音有效的清音和浊音段;其次,针对浊音段,可直接利用短时自相关函数估计基音频率,其方法是:估算浊音段第一最大峰的位置,再利用抽样率计算基音频率,举例来说,若某一语音浊音段的第一最大
16、峰值约为 35 个抽样点,设抽样频率为 11.025KHZ,则基音频率为 11025/35=315 HZ。但是,实际上第一最大峰值位置有时并不一定与基音周期吻合。一方面与窗长有关,另一方面还与声道特性有关。鉴于此,可采用三电平削波法先进行预处理。2)语音端点的检测与估计可利用时域分析(短时能量、短时过零率、短时自相关)方法的某一个特征或某几个特征的结合,判定某一语音信号的端点,尤其在有噪声干扰时,如何准确检测语音信号的端点,这在语音处理中是富有挑战性的一个课题。6.短时傅立叶变换由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为:()()jwjwmnmXexne(2.1)
17、其中 w(n-m)是实窗口函数序列,n 表示某一语音信号帧。令 n-m=k,则得到()()()jwjwnknkexe(2.2)于是可以得到()()jwjnjwknkXexe(2.3)假定()()jwjwknkexne(4)则可以得到()()jwjnjwnXee(5)同样,不同的窗口函数,将得到不同的傅立叶变换式的结果。由上式可见,短时傅立叶变换有两个变量:n 和 ,所以它既是时序 n 的离散函数,又是角频率 的连续函数。与离散傅立叶变换逼近傅立叶变换一样,如令 =2k/N,则得离散的短时傅立叶吧如下:2/2/()(,(01)jkNnnjkmNmXexwe(6)7.语谱图水平方向是时间轴,垂直方
18、向是频率轴,图上的灰度条纹代表各个时刻的语音短时谱。语谱图反映了语音信号的动态频率特性,在语音分析中具有重要的实用价值。被成为可视语言。语谱图的时间分辨率和频率分辨率是由窗函数的特性决定的。时间分辨率高,可以看出时间波形的每个周期及共振峰随时间的变化,但频率分辨率低,不足以分辨由于激励所形成的细微结构,称为宽带语谱图;而窄带语谱图正好与之相反。宽带语谱图可以获得较高的时间分辨率,反映频谱的快速时变过程;窄带语谱图可以获得较高的频率分辨率,反映频谱的精细结构。两者相结合,可以提供带两与语音特性相关的信息。语谱图上因其不同的灰度,形成不同的纹路,称之为“声纹”。声纹因人而异,因此可以在司法、安全等
19、场合得到应用。8.复倒谱和倒谱复倒谱 是 x(n)的 Z 变换取对数后的逆 Z 变换,其表达式如下:()nx(7)1l()xn倒谱 c(n)定义为 x(n)取 Z 变换后的幅度对数的逆 Z 变换,即(8)1()l|()|czX在时域上,语音产生模型实际上是一个激励信号与声道冲激响应的卷积。对于浊音,激励信号可以由周期脉冲序列表示;对于清音,激励信号可以由随机噪声序列表示。声道系统相当于参数缓慢变化的零极点线性滤波器。这样经过同态处理后,语音信号的复倒谱,激励信号的复倒谱,声道系统的复倒谱之间满足下面的关系:(9)()()snev由于倒谱对应于复倒谱的偶部,因此倒谱与复倒谱具有同样的特点,很容易
20、知道语音信号的倒谱,激励信号的倒谱以及声道系统的倒谱之间满足下面关系:(10)()()sevnnc浊音信号的倒谱中存在着峰值,它的出现位置等于该语音段的基音周期,而清音的倒谱中则不存在峰值。利用这个特点我们可以进行清浊音的判断,并且可以估计浊音的基音周期。9.基因周期估计浊音信号的倒谱中存在峰值,它的出现位置等于该语音段的基音周期,而清音的倒谱中则不存在峰值。利用倒谱的这个特点,我们可以进行语音的清浊音判决,并且可以估计浊音的基音周期。首先计算语音的倒谱,然后在可能出现的基因周期附近寻找峰值。如果倒谱峰值超过了预先设置的门限,则输入语音判断为浊音,其峰值位置就是基因周期的估计值;反之,如果没有
21、超出门限的峰值的话,则输入语音为清音。10.共振峰估计对倒谱进行滤波,取出低时间部分进行进行逆特征系统处理,可以得到一个平滑的对数谱函数,这个对数谱函数显示了输入语音段的共振峰结构,同时谱的峰值对应于共振峰频率。通过此对数谱进行峰值检测,就可以估计出前几个共振峰的频率和强度。对于浊音的声道特性,可以采用前三个共振峰来描述;清音不具备共振峰特点。实验步骤及结果:打开 Cool edit pro开始录音1) 短时能量(1)加矩形窗a=wavread(C:Usersk01WEI.wav);subplot(6,1,1),plot(a);N=32;for i=2:6h=linspace(1,1,2.(i
22、-2)*N);En=conv(h,a.*a);subplot(6,1,i),plot(En);if(i=2) legend(N=32);elseif(i=3) legend(N=64);elseif(i=4) legend(N=128);elseif(i=5) legend(N=256);elseif(i=6) legend(N=512);endend0 0.5 1 1.5 2 2.5 3 3.5 4x 105-0.200.20 0.5 1 1.5 2 2.5 3 3.5 4x 105012 N=320 0.5 1 1.5 2 2.5 3 3.5 4x 105024 N=640 0.5 1 1
23、.5 2 2.5 3 3.5 4x 10505 N=1280 0.5 1 1.5 2 2.5 3 3.5 4x 1050510 N=2560 0.5 1 1.5 2 2.5 3 3.5 4x 10501020 N=512(2)加汉明窗a=wavread(C:Usersk01WEI.wav);subplot(6,1,1),plot(a);N=32;for i=2:6h=hanning(2.(i-2)*N);%形成一个汉明窗,长度为 2.(i-2)*N En=conv(h,a.*a);% 求短时能量函数 Ensubplot(6,1,i),plot(En);if(i=2) legend(N=32);
24、elseif(i=3) legend(N=64);elseif(i=4) legend(N=128);elseif(i=5) legend(N=256);elseif(i=6) legend(N=512);endend0 0.5 1 1.5 2 2.5 3 3.5 4x 105-0.200.20 0.5 1 1.5 2 2.5 3 3.5 4x 10500.51 N=320 0.5 1 1.5 2 2.5 3 3.5 4x 105012 N=640 0.5 1 1.5 2 2.5 3 3.5 4x 105024 N=1280 0.5 1 1.5 2 2.5 3 3.5 4x 10505 N=2
25、560 0.5 1 1.5 2 2.5 3 3.5 4x 1050510 N=5122) 短时平均过零率a=wavread(C:Usersk01WEI.wav);n=length(a);N=320;subplot(3,1,1),plot(a);h=linspace(1,1,N);En=conv(h,a.*a); %求卷积得其短时能量函数 Ensubplot(3,1,2),plot(En);for i=1:n-1if a(i)=0b(i)= 1;else b(i) = -1;endif a(i+1)=0b(i+1)=1;else b(i+1)= -1; endw(i)=abs(b(i+1)-b(
26、i); %求出每相邻两点符号的差值的绝对值end k=1; j=0;while (k+N-1)nZm(k)=0;for i=0:N-1;Zm(k)=Zm(k)+w(k+i);endj=j+1;k=k+N/2; %每次移动半个窗endfor w=1:jQ(w)=Zm(160*(w-1)+1)/(2*N); %短时平均过零率endsubplot(3,1,3),plot(Q),grid;0 0.5 1 1.5 2 2.5 3 3.5x 105-0.500.53) 自相关函数N=240Y=WAVREAD(C:Usersk01WEI.wav);x=Y(13271:13510);x=x.*rectwin(
27、240);R=zeros(1,240);for k=1:240for n=1:240-kR(k)=R(k)+x(n)*x(n+k);endendj=1:240;plot(j,R);grid;短时谱1)短时谱cleara=wavread(C:Usersk01DesktopWENWEI.wav);subplot(2,1,1),plot(a);title(original signal);gridN=256;h=hamming(N);for m=1:Nb(m)=a(m)*h(m)end y=20*log(abs(fft(b)subplot(2,1,2)plot(y);title(短时谱);grid0
28、 0.5 1 1.5 2 2.5 3 3.5x 105-0.500.5 original signal0 50 100 150 200 250 300-200-1000100 一 一 一2)语谱图x,fs,nbits=wavread(C:Usersk01DesktopWENWEI.wav)specgram(x,512,fs,100); xlabel(时间(s) );ylabel(频率(Hz);title(语谱图);3)倒谱和复倒谱(1)加矩形窗时的倒谱和复倒谱cleara=wavread(C:Usersk01DesktopWENWEI.wav,4000,4350);N=300;h=linspa
29、ce(1,1,N);for m=1:Nb(m)=a(m)*h(m);end c=cceps(b);c=fftshift(c);d=rceps(b);d=fftshift(d);subplot(2,1,1)plot(d);title(加矩形窗时的倒谱)subplot(2,1,2)plot(c);title(加矩形窗时的复倒谱)0 50 100 150 200 250 300-6-4-202 一 一 一 一 一 一 一 一0 50 100 150 200 250 300-505 一 一 一 一 一 一 一 一 一(2)加汉明窗时的倒谱和复倒谱cleara=wavread(C:Usersk01Des
30、ktopWENWEI.wav,4000,4350);N=300;h=hamming(N);for m=1:Nb(m)=a(m)*h(m);end c=cceps(b);c=fftshift(c);d=rceps(b);d=fftshift(d);subplot(2,1,1)plot(d);title(加汉明窗时的倒谱)subplot(2,1,2)plot(c);title(加汉明窗时的复倒谱)0 50 100 150 200 250 300-6-4-202 一 一 一 一 一 一 一 一0 50 100 150 200 250 300-505 一 一 一 一 一 一 一 一 一四、实验过程与分
31、析语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。语音信号分析可以分为时域和变换域等处理方法,其中时域分析是最简单的方法,直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量,短时平均过零率,短时自相关函数等。信号的傅立叶表示在信号的分析与处理中起着重要的作用。因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变得更明显,因
32、此,它能更深入地说明信号的各项红物理现象。由于语音信号是随着时间变化的,通常认为,语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统频率响应与激励源频谱的乘积。声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。由于语音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。五、实验总结通过本次实验,我知道了:短时能量分析和过零率分析作为语音信号时域分析中最基本的方法。但是很多情况表明使用单一的一种方法并不能得到理想的检测结果,这是因为短时能量分析是通过能量的高低来区分清音和浊音,不容易确定语
33、音信号片段的起始点;而过零率分析仅仅是表明清音的过零率高于浊音,对噪声的存在比较敏感,如果背景中有反复穿越坐标轴的随机噪声,会产生大量的虚假过零率,影响检测结果。对于背景噪声和清音的区分则显得无能为力。将这两种方法结合起来,通过短时能量分析去除高频环境噪声的干扰,用过零率分析去除低频的干扰,检测效果较好。但综合考虑后,由于这两种方法本身的局限性以及过零率门限值和短时能量门限值的选取,使得检测的范围和精度仅限于单个单词,而对整个句子的检测还达不到令人满意的效果。复倒谱一个函数的傅里叶变换的对数的傅里叶反变换。对褶积信号的线性分离作用,在实际信号处理中很有用处,例如可应用于通信、建筑声学、地震分析、地质勘探和语音处理等领域。尤其在语音处理方面,应用复倒谱算法可制成同态预测声码器系统,用于高度保密的通信。 在离散信号 x(n)情况下,用 z 变换表示复倒谱,可以写作 复倒谱可以利用同态系统中一种特定的特征系统来求得,如图所示。为了区别于用一般方法所求得的频谱(spectrum),将spectrum 这一词前半部(spec)字母顺序颠倒即成 cepstrum,根据词形定名为倒谱。又因频谱一般为复数谱,故称为复倒谱。为了说明复倒谱的性质,假设已知两信号 x1(n)和 x2(n)相褶积