1、线性预测分析, 时域、频域处理方法(50),3.7 线性预测(Linear Prediction)分析根据语音信号的产生模型,语音信号x(n)可以看作以u(n)为激励的一个全极点滤波器的响应。,问题:如何在已知x(n)的条件下,求出系数 ai i=1, p ?,AR模型,解答:线性预测分析的方法。, 时域、频域处理方法(51),思路:一个语音的采样能够用过去若干个语音采样的线性组合来逼近。通过使线性预测到的采样在最小均方误差意义上逼近实际语音采样,可以求取一组唯一的预测系数。 常简称为LPC(Linear Prediction Coding),系数称为线性预测系数或LPC系数。几个概念 预测器
2、:,从时域角度可以理解为,用信号的前p个样本来预测当前的样本得到预测值。,它的差分方程为, 时域、频域处理方法(52),预测误差 :,预测误差滤波器:,可知H(z)=G/A(z),即预测误差滤波器是系统的逆滤波器。,短时预测均方误差:,线性预测分析应该在短时的语音段上进行,求解过程,使,则有:, 时域、频域处理方法(53),得到线性方程组,若定义,则方程组可简写为,一个由p个方程组成的有p个未知数的线性方程组,并可以计算最小预测误差能量,求解方程,可得到LPC系数,又被称为预测残差能量,它由一个固定分量和一个依赖于预测系数的分量组成。, 时域、频域处理方法(54),要构造信号的AR模型,还应估
3、算增益因子。,AR模型的差分方程形式,因此可计算预测误差,则,激励信号u(n)总能量可以认为近似为1,因此有, 时域、频域处理方法(55),求LPC系数需考虑两个因素: (1)模型阶数的选择。 (2)由于声门脉冲形状和口唇辐射的影响,语音信号的频谱在总趋势上会产生高频衰落的现象,可通过预加重进行高频提升。,声门激励是一个双极点模型,口唇辐射是一个零点模型,如一个零点抵消一个极点,则还有一个极点的影响。因此,模型阶数为 , 其中 为共振峰的个数。, 时域、频域处理方法(56),自相关法,采用短时分析技术,只计算范围(0nN-1)以内的语音数据。,或,为加窗后的语音数据。,线性预测方程组的解法:,
4、 时域、频域处理方法(57),由于短时自相关函数可以表示为:,求解LPC系数的方程组就可以写为:,仅与 的相对值有关。,且有 ,, 时域、频域处理方法(58),将其转换成矩阵形式,这种方程为Yule-Walker方程 ,其系数矩阵被称为托布里兹(Toeplitz)矩阵。具有如下特点:,(1)pp阶的对称阵。,(2)沿着主对角线及任何一条与主对角线平行的斜线上的所有元素都相等 。, 时域、频域处理方法(59),利用Toeplitz矩阵特点: i阶方程组的解可以用i-1阶方程组的解来表示,i-1阶方程组的解又可以用i-2阶方程组的解表示,依此类推。因此,只要解出一阶方程组的解,就可以一步一步地递推
5、来解出任意阶方程组的解。典型的方法有: 莱文逊杜宾(LevinsonDurbin)递推算法 舒尔(Schur)递推算法,(3)开始按如下公式进行递推运算,(1)计算自相关系数,(2)初值,(4) i=i+1。若i p则算法结束退出,否则返回第(3)步,, 时域、频域处理方法(60),这样经过递推计算后,可得到i=1,2,p各阶预测器的解。,莱文逊杜宾递推算法, 时域、频域处理方法(61),经过递推计算后,最终解为:,由于各阶预测器的预测残差能量都是非负的,可以推知,ki称为反射系数。,且 必随预测器阶数的增加而减少。, 时域、频域处理方法(62),舒尔递推算法:,定义归一化的自相关函数如下:,
6、将前面方程中的自相关函数都转化为其归一化形式。归一化自相关函数永远不大于1,因而,递推过程中的所有变量都小于或等于1。,递推过程中设一辅助序列, 时域、频域处理方法(63),可以证明, 有如下性质:,(1)当 时,,(2)反射系数,(3)递推式 成立;,(4) ,其中等号仅当 时成立。, 时域、频域处理方法(64),舒尔递推算法描述如下:,(1)计算自相关系数 ,,(2)计算归一化自相关系数,(3)令,(4)令,(5)对于 计算:,(6) 。若 则算法结束退出,否则返回(5)。, 时域、频域处理方法(65),最终得到的是相应的反射系数。 如果在第(5)步的递推过程加入相应的递推式,也可以同步求
7、出线性预测系数和预测残差能量。, 时域、频域处理方法(66),格型法 :,引入了“正向预测”和“反向预测”的概念,阐述了参数ki的物理意义。,首先提出了逆滤波器A(z)的格型结构形式,由此给出了线性预测分析的格型法。 格型法不需要用窗口函数对信号进行加权,同时又保证了解的稳定性,较好地解决了精度和稳定性的矛盾。, 时域、频域处理方法(67),格型法的基本原理:,在基于自相关的杜宾递推算法中,当递推进行到第 i 阶时,可得到该阶预测系数,可以定义一个 i 阶的线性预测误差滤波器,它的传输函数定义如下:,这个滤波器输入信号是 ,输出信号为预测误差 ,,写成z变换形式为:, 时域、频域处理方法(68
8、),利用前面的递推式:写成矩阵形式:,可以导出:,方程两边同时左乘 ,得, 时域、频域处理方法(69),其中,,预测误差:,上式表明,第 i 阶线性预测误差滤波器的输出可以分解成两部分,一是第i1阶滤波器的输出;第二部分是与第i1阶有关的输出信号 经单位移序和 加权后的信号。, 时域、频域处理方法(70),将这两部分信号分别定义为正向预测误差信号 和反向预测误差信号 。 前者的计算公式前面已经给出,后者可以推导出:,正向预测误差信号是用i个过去的样本值来预测 时的误差。,反向预测误差是用时间上延迟时刻的样本值 来预测 时的误差。,Z反变换, 时域、频域处理方法(71),这两种预测情况如下图所示
9、。, 时域、频域处理方法(72),基于正向预测和反向预测,可以推出线性预测分析采用的格型滤波器结构。,对于正向预测,可得到如下的递推公式:,将,代入,求反变换后有:,当i=0 时,有,当i=p时,有, 时域、频域处理方法(73),线性预测分析的格型滤波器的结构形式如图4-3所示。,这个滤波器输入为x(n),输出为预测误差e(n),对应于预测误差滤波器A(z), 时域、频域处理方法(74),H(z)是预测误差滤波器A(z)的逆滤波器。合成滤波器H(z)的输入为e(n)时,输出应为x(n)。整理递推式:,据此可画出图4-4所示的格型合成滤波器的结构。, 时域、频域处理方法(75),由图4-3和图4
10、-4可见,p 阶滤波器可以表示成由p 节斜格构成,尤其是合成滤波器的结构直接与前面讨论的声道的级联声管模型相对应。, 时域、频域处理方法(76),格型法的求解:,根据格型分析滤波器的结构形式,可以依据最小误差准则,求出各反射系数ki。如果需要,还可以更进一步计算出预测ai 。,可依照几种不同的最优准则来进行,由此出现了多种格型法的求解算法。首先定义3种均方误差:,正向均方误差,反向均方误差,交叉均方误差, 时域、频域处理方法(77),(1)正向格型法 :,正向格型法逼近准则:使格型滤波器的第i节正向均方误差最小,经过推导可得:,或者, 时域、频域处理方法(78),(2)反向格型法 :,反向格型
11、法逼近准则:使格型滤波器的第i节反向均方误差最小,经过推导可得:, 时域、频域处理方法(79),(3)几何平均格型法 :,S为 的符号。,可得:,或者以时间平均的形式表示:, 时域、频域处理方法(80),上面的表达式具有归一化互相关函数的形式,由于它表示了正向预测误差和反向预测误差之间的相关程度,因此反射系数也被称为部分相关系数,简写为PARCOR系数。,运用柯西许瓦兹不等式容易证明有 ,所以这种方法求解的反射系数将能保证系统的稳定。, 时域、频域处理方法(81),(4)伯格(Burg)法,伯格法的逼近准则是:使格型滤波器第i节正向和反向均方误差之和最小,,由此可以得到:,或者, 时域、频域处
12、理方法(82),1、反射系数,其中Ai是第 i 节声管的面积函数。,另一方面,它也表示了正向预测误差和反向预测误差之间的相关程度。,线性预测的几种推演参数,在前面声道的级联声管模型中,声道被模拟成一系列长度和截面积不等的无损声管的级联,反射系数ki反映了声波在各声管段边界处的反射量。, 时域、频域处理方法(83),2、预测器多项式的根,如果把合成滤波器看作是一个 p 阶AR模型,那么就有,看作是对信号谱的一个估计。,通过求取预测器多项式的根,可以实现对共振峰的估计。预测误差滤波器A(z)可以用它的一组根 等效地表示。, 时域、频域处理方法(84),每一对根与信号谱中的一个共振峰相对应。,如使A
13、(z)=0,则可以解出p个根z1,z2,zp。 若p为偶数,那么一般情况下得到的是p/2对复根,它们可以表示为:, 时域、频域处理方法(85),如果把z平面的根转换到s平面,,令,其中T为采样间隔。设,则,决定了共振峰的频率, 决定了共振峰的带宽。, 时域、频域处理方法(86),3、对数面积比系数,由反射系数可以直接推导出一组重要参数对数面积比系数,其定义为:,其中Ai就是多节无损声管中第 i 节的截面积。,可得到直接通过反射系数求取对数面积比系数的关系式:,同理,, 时域、频域处理方法(87),4、线谱对分析法 线谱对参数(Line Spectrum Pair,简称LSP)也是线性预测系数的
14、一种推演参数。LSP参数具有非常好的量化特性和插值特性,因而在声码器研究中获得广泛的应用。,定义 i 阶线性预测器的逆滤波器为, 时域、频域处理方法(88),定义两个(p+1)阶的多项式,有,将相关项写成如下的形式:,可以得到如下递推公式:, 时域、频域处理方法(89),展开有,可见P(z)是一个对称的实系数多项式,而Q(z)是一个反对称的实系数多项式,因此它们都有共轭的复根。且都有实根:,共轭复根的形式为,零点构成的基本因式具有如下的形式:, 时域、频域处理方法(90),可以证明:当A(z)的零点都在单位园内时,P(z)和Q(z)的零点都在单位园上,并且P(z)和Q(z)零点交替出现,即:,
15、参数 、 成对地出现,且反映信号的频谱特性,因此被称为线谱对系数。,若阶数p是偶数,P(z)和Q(z)零点分别为,则, 时域、频域处理方法(91),求解线谱对参数就是求解多项式P(z)和Q(z)关于z的根。当线性预测系数已知时,可以用如下方法来求LSP参数:,线谱对参数的求解:,因为,令,可以通过变换使 和 表示成关于y的一对p/2次代数方程组。,这对代数方程可以用牛顿迭代法求解得到方程的根,再进一步可求出 和 。, 时域、频域处理方法(92),5、LPC倒谱系数(LPCC) 语音信号的倒谱是通过对语音信号进行Z变换,取对数,再反Z变换来得到的。 也可用声道系统的传递函数H(z)来代替语音信号
16、来求复倒谱,因为它也反映了信号的谱包络信息。, 时域、频域处理方法(93),得到 和 间的递推关系为, 时域、频域处理方法(94),3.8 基音周期估计 基音周期是语音信号最重要的参数之一,也称基音检测(Pitch Detection),对汉语:是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息。, 时域、频域处理方法(95),基音检测的主要困难表现在:, 语音信号变化十分复杂,声门激励的波形并不是一个完全周期的序列。, 要从语音信号中去除声道的影响,直接取出仅与声带振动有关的声源信息并非易事。, 在浊音段很难精确地确定每个基音周期的开始和结束位置 。, 基音周期变化
17、范围较大。, 时域、频域处理方法(96),1 自相关方法,浊音信号的自相关函数在基音周期的整数倍位置上出现峰值,而清音的自相关函数没有明显的峰值出现。,影响从自相关函数中正确提取基音周期的最主要原因是声道响应部分。,为了提高自相关方法检测基音周期的准确性,需要进行一些前期的预处理。, 时域、频域处理方法(97),(1) 60Hz900Hz的带通滤波(2)中心削波,(3)中心削波后的语音再计算自相关函数,求第一最大峰值点,由语音信号的峰值幅度来确定, 时域、频域处理方法(98),计算自相关函数的运算量是很大的,可用一些减少短时自相关运算的有效方法。 如可对中心削波函数进行修正。,如采用三电平中心
18、削波方法, 时域、频域处理方法(99),3 倒谱法 对语音信号利用倒谱解卷原理,可以得出激励序列的倒谱,它具有与基音周期相同的周期,因此可以求出基音周期。, 时域、频域处理方法(100),下图为语音信号对数频谱示意图。,频谱包络的慢变分量(虚线所示),基音谐波峰值的快变分量(实线所示), 时域、频域处理方法(101),通过滤波或再取一次傅里叶反变换,即可将慢变分量与快变分量分离开。 下图为倒谱的示意图。,靠近原点的低倒频部分是频谱包络的变换,谐波峰值的变换,表示基音。, 时域、频域处理方法(102),一个用倒谱提取基音的实例如下图。,窗口选择的语音段应至少包含有两个明显的周期。,求出倒谱峰值及
19、其位置,如果峰值未超过某门限值,则进行过零计算;,若过零率低于某门限值,则为无声语音帧。,时域信号的峰值检测器;若低于某门限值,则是无声,不进行由倒谱检测基音的计算。, 时域、频域处理方法(103),各种算法求得的基音周期轨迹与真实的基音周期轨迹不可能完全吻合。 在一些局部段落或区域中有一个或几个基音周期的估计值偏离了正常的轨迹(通常是偏离到正常值的2倍或1/2)。 可以采用各种平滑算法,最常用的是中值平滑算法和线性平滑算法。, 时域、频域处理方法(104),3.9 共振峰的估计,共振峰信息包含在语音频谱包络中,共振峰参数提取的关键是估计语音的频谱包络,一般认为谱包络中的最大值就是共振峰。,被许多问题所困扰 : 虚假峰值 :为了增加灵活性会给预测器增加二至三个额外的极点,可利用这些极点代表虚假峰值; 共振峰合并。, 时域、频域处理方法(105),根据声道滤波器找出共振峰。线性预测共振峰估计通常有两种途径可供选择:一种途径是利用一种标准的寻找复根的程序计算预测误差滤波器的根,称为求根法;另一种途径是找出由预测器导出的频谱包络中的局部极大值,称为选峰法。,基于线性预测的共振峰求取方法:, 时域、频域处理方法(106),这部分全讲完了。,