1、国家“十一五”规划教材 数字语音编码讲议同济大学电子与信息工程学院 赵晓群 编著 机械工业出版社,2007年,第4章 语音信号的时域分析 4.1 概述 语音信号携带各种信息:男声、女声,喜、怒,中、英等。 不同场合感兴趣的信息不同;判断信号是否为语音,只需人类语音信号的一般特征;区分语音为清、浊音,需语音能量谱和基频;数字传输或数字存储时,目的不同,保留信息精度不同; 语音信号处理的任务:去除与应用目的不相干或影响不大的语音信息需要的信息不仅应当提取出来,有时还需要加强。 以上涉及语音信号中,各种信息的表示问题。 表示方法的原则:最方便、最有效。 短时分析技术贯穿于语音分析的全过程。,整体的语
2、音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。 语音信号分析:时域分析、频域分析、倒频域分析等; 语音信号分析:模型分析、非模型分析; 模型分析法是指依据语音信号产生的数学模型,来分析和提取表征这些模型的特征参数, 模型分析:共振峰分析、无损级联声管分析法 非模型分析:不进行模型化的分析 语音的预处理:语音信号的数字化、语音信号的端点检测、预加重、加窗、分帧等, 本章重点:语音信号的各种时域分析技术,是语音处理技术的基础知识。,第4章 语音信号的时域分析 4.2 语音信号的数字化和预处理 信号数字化:放大、增益控制、反混叠滤波、取样、A/D变换及编码(PCM编码); 预处理:预
3、加重、加窗、分帧、端点检测等; 图4.1:语音信号数字分析或处理的系统框图。,4.2.1 预滤波、取样、A/D变换 预滤波:带通滤波器(上、下截止频率为fH、fL)防混叠滤波,抑制fs/2的输入信号分量(fs为取样频率)抑制工频干扰(50 Hz电源)。 多数语音编/译码器: fH = 3.4kHz, fL = 60100Hz,fs= 8kHz。 语音识别:对电话用户指标与语音编/译码器时相同;要求较高或很高: fH=4.5 or 8kHz, fL=60Hz, fs = 10 or 20kHz。 A/D变换需对信号量化,编码为二进制,产生量化误差。 量化误差(量化噪声):量化信号值与原信号值之差
4、; 信号波形的变化足够大或量化间隔足够小时,量化噪声符合具有下列特征的统计模型: 量化噪声是平稳的白噪声过程; 量化噪声与输入信号不相关; 量化噪声在量化间隔内均匀分布,即具有等概率密度分布。,量化信噪比SNR(信号与量化噪声的功率比)为:式中, 输入语音信号序列的方差,噪声序列的方差, 信号的峰-峰值, B量化字长, 设语音信号的幅度服从Laplace分布,则取 , 上式改写为:B=7 bit,SNR=35 dB,能满足一般通信系统的要求。 语音波形的动态范围达55 dB,故B应取10 bit以上。 为保持35 dB的信噪比,常用12 bit量化,附加的5 bit用于补偿30 dB左右的输入
5、动态的变化。,表明量化器中每bit字长对 SNR的贡献约为6 dB,A/D变换器:分为线性和非线性两类。 目前采用绝大部分的线性A/D变换器是12 bit。 非线性A/D变换器一般是8 bit,它与12 bit线性变换器等效。 有时需要将非线性的8 bit码转换为线性的12 bit码。数字化的反过程是从数字化语音中重构语音波形。 必须在D/A后加平滑滤波器,对重构的语音波形的高次谐波起平滑作用,以去除高次谐波失真。 预滤波、取样、A/D和D/A变换、平滑滤波等许多功能可以用一块芯片完成,在市场上有多种这样的集成芯片供选用。,4.2.2 预处理 预处理:预加重、加窗、分帧、端点检测等; 语音的一
6、个特征:约8 kHz高频端按-6 dB/倍频程跌落。 预加重:提升语音的高频部分,使信号的频谱变得平坦,可在反混叠滤波前,可压缩动态范围,提高信噪比。也可在数字化后、参数分析之前。 预加重用6 dB/倍频程的提升高频特性的预加重数字滤波器:式中,为常系数,值接近于1,通常取= 0.920.94。 恢复原信号,对测量值进行去加重处理,即加上-6 dB/倍频程的下降的频率特性来还原成原来的特性。,4.2.3 窗函数的作用 采用连续分段或交叠分段的方法分帧,33 100帧/秒。 图4.2:帧移与帧长示例。 帧与帧之间的信号平滑过渡,保持其连续性。 帧移:前后帧的交叠部分。 帧移与帧长的比值一般为01
7、/2。 移动窗函数加权实现:x(n)为语音信号,w(n)为窗函数,sw(n)为窗选语音信号。,理想窗函数的频率响应有一个很窄的主瓣,它增加了频率的分辨度,而没有旁瓣。,讨论窗函数的形状和长度的影响。1. 窗函数的形状 好的窗函数的标准: 时域:减小时间窗两端的坡度,使窗口两端边缘平滑过渡到到零,减小语音帧的截断效应; 频域:较宽的3 dB带宽和较小的边带最大值。 常用的窗函数(窗长为N): (1) 矩形(rectangular)窗: (2) Hamming(汉明)窗:(3) Hanning(汉宁)窗:,(4) Bartlett(巴特雷特)窗: (5) Blackman(布累克曼)窗:(6) K
8、aiser(凯散)窗:式中, 零阶贝塞尔函数,,图4.3、 4.4 :窗函数的波形 矩形窗主瓣最窄,频率分辨度最高,频率泄漏最大; Blackman窗频率分辨度最低,频率泄漏最小。 常用矩形窗、Hamming窗。,2. 窗口的长度 取样周期Ts = fs、窗口长度N、频率分辨率f 的关系为:Ts一定时, f 随窗口N增加而减小,即f 提高,时间分辨率降低。如果窗口取短,频率分辨率下降,时间分辨率提高。 取样周期和频率分辨率矛盾,应根据需要选择合适的窗长。 时域分析: N 很大,语音高频受阻,短时能量变化很小,不能反映幅度变化; N 太小,滤波器通带宽,短时能量急剧变化,不能平滑能量函数。 通常
9、一帧内应含有1 7个基音周期。 基音周期变化大,从女性和儿童的2 ms到老年男子的14 ms 10 kHz取样时,N 折衷选择为100 200点(10 20 ms)。 分析条件:(通常需标明,以提供性能评价参考依据)取样频率、精度、预加重方式、窗函数、帧长、帧移等。,第4章 语音信号的时域分析 4.3 短时能量和短时平均幅度4.3.1 短时能量 语音的清音能量较小,浊音能量较大。 语音的能量分析主要短时能量和短时平均幅度。 n时刻语音信号的短时能量En为:或式中,h(n)=w2(n),可以看做滤波器的冲激响应函数。 En反映语音振幅或能量随时间缓慢变化的规律。 窗函数或滤波器的函数形式和宽度对
10、能量序列影响很大。 选择合适的窗函数或滤波器的冲激响应函数和它们的宽度。 用得较多的是矩形窗和Hamming窗。,窗宽的影响: 窗函数很宽或冲激响应很长,平滑作用显著,使En变化不大,反映不出语音能量的时变特性。 窗函数过窄,平滑作用有限,仍然保留瞬时快变化,使En反映语音振幅细节,表现不出振幅平方包络的变化规律。 当N小于语音基音周期时,将按照基音周期内语音振幅平方波形的细节瞬时变化; 当N比基音周期的若干倍还要大时,各段语音的短时能量差别不大,不能跟随语音能量的时变特性。 这两种情况都不能准确描述语音能量自身的实际变化规律。 必须选择合适的窗宽, 兼顾男声和女声,10 kHz取样时,选窗宽
11、10 20 ms。,图4.5:语音的短时能量序列的包络曲线。,矩形窗比Hamming窗的平滑效果显著; 随着窗宽的增加,平滑效果越显著; 从的包络曲线可以清楚看出清音和浊音之间的区别和分界点,,4.3.2 短时平均幅度 En的计算是平方求和,计算量大; 平方运算扩大了样本间差别,选窗宽择带来附加的困难。 须选择较宽的窗,才能较好地平滑平方幅度的起伏。 为此,提出语音能量时变性质的另一个重要参数。 n时刻语音信号的短时平均幅度Mn为:或式中,h(n) =w(n)通常窗函数w(n)0 ,所以h(n) = w(n)。 依据定义式可导出多种的计算方法(略)。 共三种。,图4.6:语音的平均幅度序列的包
12、络曲线。,语音的平均幅度与短时能量具有相似的一些性质 矩形窗比Hamming窗的平滑效果显著; 随着窗宽的增加,平滑效果越显著; 从的包络曲线可以清楚看出清音和浊音之间的区别和分界点,,比较En和Mn(比较图4.6与4.5 ): 短时平均幅度的差别没有它们的短时能量的差别那么显著; 清音的短时平均幅度比短时能量有所提高。 En和Mn的主要用途: 区分语音的清音段与浊音段; 区分声母与韵母; 无声与有声的分界; 作为一种超音段信息用于语音识别。,第4章 语音信号的时域分析 4.4 短时平均过零率和上升过零间隔 4.4.1 短时平均过零率 离散信号相邻样本取不同符号时,称为出现了过零现象。 过零率
13、:单位时间过零的次数。 窄带离散信号的过零率较准确地度量了信号的频率特性。 宽带离散信号的过零率只能粗略地反映信号的频谱特性。 语音信号是宽带、缓时变信号,其频谱特性随时间变化。 语音信号的短时过零率粗略地表征语音信号的频谱特性。 语音信号的过零率序列能够描述:语音序列的清音和浊音、无声与有声等特征,在语音分析中有重要应用。,n时刻语音信号的短时平均过零率Zn为: 式中,上式的物理意义:当相邻两个样本符号相同时,不产生过零;当相邻两个样本符号相反时,产生一次过零。,图4.7:语音的短时平均过零率的包络曲线。 浊音频谱主要集中在3 kHz以下低频区域,超过4 kHz后频谱幅度迅速下降;而清音频谱
14、幅度在超过4 kHz后反而呈上升趋势,甚至超过8 kHz后频谱幅度仍然很大。 这表明清音频谱主要集中在高频区域。 短时平均过零率粗略地描述了语音信号的频谱特性,并可用于区分浊音和清音。 例: 图4.7中短时平均过零率高的区段对应清音,过零率低的区段对应浊音。 但是,仅用过零率的高低区分清音和浊音并不很准确,因为某些清音和浊音的短时平均过零率的数值相差不多。,图4.8:清音和浊音每10 ms内过零数的概率分布曲线。 清音:10 ms过零数为49的概率最大,大体上显正态分布。 浊音:10 ms过零数为14的概率最大,也大致呈正态分布。 浊音和清音每10 ms过零数为24左右的概率几乎是相等的,因而
15、凭着这类数值就很难区分浊音和清音。 规定一个噪声门限: 样本超过门限正值,认为是正并赋值, 样本低于门限负值,认为是负并赋值, 界于门限正负值间,认为是零并赋值。 为准确判定样本的符号,应要求: 信号中不含直流偏移; 噪声和电源干扰尽可能小; 选择合适的正负门限值。,4.4.2 短时上升过零间隔 短时平均过零率:描述复杂波形“频率”特征的一个参数。 短时平均上升过零间隔:描述复杂波形“周期”特性的参数。 在一定的噪声背景下,过零间隔参数具有很好的顽健性,对不同的语音具有很好的差异性 上升过零点时间RZCT:当前信号波形样本大于或等于零,而其前一点样本小于零。上升过零间隔RZCI:上升过零间隔次
16、数序列:将各种语音得到的统计出各种长度的间隔出现的次数,由此可以得到上升过零间隔次数序列。,第4章 语音信号的时域分析 4.5 短时自相关函数和短时平均幅度差函数 4.5.1 短时自相关函数 自相关函数用于衡量信号自身时间波形的相似性。 清音和浊音的发声机理不同,波形上存在较大的差异。 浊音的时间波形呈现准周期性,波形之间相似性较好; 清音的时间波形呈现随机噪声的特性,样本间相似性较差。 可以用短时自相关函数来测度语音的相似特性。 时间离散的确定信号,自相关函数的定义为:随机信号或者周期信号,自相关函数的定义为:,自相关函数具有以下性质:(1) 周期性:周期信号的自相关函数是周期函数;(2)
17、对称性:R(k) = R(-k) ;(3) 存在最大值:对所有k,有R(0) R(k);(4) 对确定信号, R(0) = 信号能量;对随机信号或周期信号, R(0) = 平均功率。 短时自相关函数为: 根据自相关函数的性质(2),得: 令hk(n) = w(n)w(n+k) ,上式改写为:上式表明,可用数字滤波器实现Rn(k)的计算。,实际往往不采用数字滤波器来实现,而采用直接计算的方法 令 ,并 m 用代替 ,且 ,由上式得:考虑到有限窗宽N,上式改写为:考查Rn(k)计算量: 乘法:加法:计算量过大,需改进。 改进方法:DFT技术,细节略。,4.5.2 语音信号的短时自相关函数 图4.9
18、:语音的短时自相关函数曲线,特点:明显反映浊音信号的周期性;例:周期72点,9 ms或110 Hz清音没有周期性,其性质类似于噪声;窗函数有影响。矩形窗时,浊音的自相关函数周期性明显;短时自相关函数的幅度是一个逐渐衰减的曲线。,窗函数长度对短时自相关函数有重要影响; 一般要求,窗长大于两倍的基音周期为好。 图4.10:不同矩形窗长时的短时自相关函数 为反映语音的周期性,长窗有利;为反映语音的时变性,短窗有利;可采用修正的短时自相关函数,折中处理。,4.5.3 修正的短时自相关函数 修正的短时自相关函数定义为:或式中,K最大的延迟,保证计算任何k时,执行N次乘累加运算 矩形窗时,计算式可简化为:
19、是两个不同有限长度语音段和的互相关函数。不满足对称性;但有周期性,幅度不下降。,图4.11:修正短时自相关函数的曲线 基音周期最大值为Tmax,则 的两段分别只需为Tmax和2Tmax ,可正确求取基音周期;N 值较大时,随 k 增大, 峰值有所下降;若信号为周期冲激串时,则所有的峰值同幅度。,4.5.4 短时平均幅度差函数 短时自相关函数是语音信号时域分析的重要参量。 自相关函数的运算量大。原因:乘法运算时间较长。 避免乘法,引入短时平均幅度差函数 短时平均幅度差函数定义为:式中,w1(m)和w2(m)是窗函数, 当窗的宽度选为 N 时,上式为: 若信号有周期性,在 时将出现极小值。Np是周
20、期的性质类似于自相关函数;,图4.12:周期性语音的Rn(k)和Fn(k)特点:周期性信号,Fn(k)是在周期的整数倍点上有谷值,而不是峰值。 可以证明Rn(k)和Fn(k)有密切关系,其关系为:式中, 。 计算Fn(k)只需加法、减法和取绝对值的运算; 与Rn(k)的加法和乘法相比,其运算量大大减少; 用硬件实现语音信号分析时有很大好处。 Fn(k)已用于许多实时语音处理系统中。,图4.13:平均幅度差函数平均幅度差函数在浊音的基音周期上出现极小值,在清音时没有明显的极小值。,第4章 语音信号的时域分析 4.6 短时时域处理技术的应用 4.6.1 语音端点检测 某些应用要求:找出语音端点,采
21、集真正语音,以减少数据量、运算量、处理时间。 语音端点检测:归结为区别语音和噪声。 若SNR很高,则计算信号的短时能量可区分语音端点。 实际应用中难保证高信噪比,不能仅依靠短时能量来判别; 某些语音端点判别会遇到特殊的困难:弱摩擦音、弱爆破音、鼻音时,往往与背景噪声电平相近。 可补充利用短时平均过零率Zn进行判断:因清音和以上所举的音素的Zn比背景噪声的Zn要高数倍 。,两级判决法:用En作第一次判别,再用Zn作第二次判别。 第一级判别:采用双门限比较的方法(见图4.14)。 (1) 根据En取较高门限M1 (En多在M1之上),进行粗判,语音起止点位于M1与En包络交点对应的间隔之外(即AB
22、段之外)。 (2) 根据背景噪声的平均能量选取较低门限M2,从A点往左、B点往右搜索,分别找到En包络第一次与门限相交的两点C和D,于是CD段就是根据En判定的语音段。,第二级判决:从C点往左、从D点往右搜索,找到Zn第一次低于某个门限M3的两点E和F,即为语音起止点。 M3由背景噪声的平均过零率Zr确定,一般取M3 =(35)Zr 。 M1 M2 M3需根据实际语音数据选取; 可用短时平均幅度代替En。,4.6.2 基音周期估计 短时自相关函数:区分清音和浊音、估计基音周期 特点:用短时自相关函数估计基音周期时,包含多余信息。 对策:压缩与基频无关的信息,即进行适当处理 。 方法:低通滤波、
23、非线性滤波后,计算短时自相关函数。 低通滤波:带宽1 kHz。滤波后以2 kHz取样频率取样,再以2 20 ms滞后逐帧计算短时自相关函数,帧长10 20 ms。 理由:一般基频500 Hz,女高音升C调 1 kHz。 非线性滤波:常采用中心削波技术。 理由:估计基频仅用基频处自相关峰,其余较低峰是多余的;注:无关的峰是声道对激励脉冲产生的响应。 基音周期估计:可得到基频随时间变化的轨迹 。,中心削波技术:常用中心削波、三电平中心削波两种。 中心削波器特性(见图4.15 )削去声道谐振产生的阻尼振荡,留下的序列包含基音信息;削波电平的选取对于估计结果和计算复杂性有很大影响;有人提议把削波电平选
24、为最大信号幅度的30%。 为进一步节省计算量,可以采用三电平中心削波器, 图4.16 :三电平中心削波器,第4章 语音信号的时域分析 4.7 中值滤波在语音短时时域处理中的应用 语音信号经过短时时域处理后得到一个时间序列,例: 能量序列 平均幅度序列平均过零率序列 自相关函数基音周期,等 图4.17(a):中心削波及自相关函数法求出的基音周期轨迹零散的基音周期值明显地偏离了轨迹线。为错误数值。 可采用滤波法(如中值滤波)剔除少数错误的基音周期估值,,中值滤波是非线性滤波。 中值滤波: 用滑动窗口从数据序列中选出一段数据,用这段数据的中间值来代替这段数据。窗口滑动,得出一个个中值作为滤波结果。 计算式:式中,L 为滑动窗宽注:在信号开始和末端边界处的中值,通常是假定信号的边界值保持不变进行外推来确定的。 图4.18:中值滤波与线性滤波的性能中值滤波较多保留原信号的不连续性!,有时,中值滤波的平滑效果有时不够显著,可采用组合方式。 如常将中值滤波和线性平滑结合起来应用。 图4.19:两种方案。 具体性能、计算式的推导略。,几个实例:图4.21 :过零率轨迹经各种平滑处理图4.22 :组合平滑基音周期轨迹,谢 谢!,