语音重点总结.doc-道客多多_道客多多docduoduo.com

资源描述

1、1.function of prefilter：suppress the component of input signal which exceed fs/2， prevent aliasing ； suppress Interference caused by 50Hz electricity。prefilter is band-pass filter，in general,low and up cut-off frequency are： fH=3400Hz， fL=60100Hz。2. sampling：transform time continuous signal into a t

2、ime discrete signal 气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射，期间的传输通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性的腔体，放大某些频率，在频谱上形成相应位置的峰起，称为共振峰。短时自相关函数和长时自相关函数可以用来描述语音的幅度特性功率谱密度：1.语音中不同频谱分量的平均概率可以用长时平均谱密度来表示。2.语音波形高频分量对语音总能量的贡献很小，但是高频分量带有重要的语音信息，平均功率谱约在250-500Hz 处最大，而高于此频率的功率谱约以每倍频程 610dB 下降。3语音信号的短时频谱并不总是低通特性。辅音有较高的频谱分量，显噪声特性；元音从总体上

3、看是低通的，显示明显的局部特性。语音信号具有很强的“时变特性” 在有些段落中它具有很强的周期性，有些段落中又具有噪声特性，而且周期性语音和噪声语音也在不断变化之中。语音信号是非平稳的，但具有“准平稳特性” 在较短的时间间隔内（一般 20200ms），可以认为语音信号的特征基本保持不变。数字语音信号处理中，通常采取短时分析技术。元音和辅音的区别:1从功能上来讲，元音往往能自成音节，辅音一般不能独立地构成音节。2在物理属性方面，元音基本上由乐音构成，辅音则有一定的噪音。3在听觉上，发元音时，声带振动，比较响亮；发辅音时，有的声带不振动，自然不够响亮，有的声带即使振动，但由于在声腔中受到某种阻碍，

4、还是不如元音响亮。4在生理属性方面，主要有三个方面的区别：第一，发辅音的时候，发音器官的某一部位形成阻碍，气流在只有克服阻碍才能发出来；发元音的时候，气流通过生门使声带发生振动，气流在其通道上不受到阻碍，只受到各种共鸣。第二，发辅音时，因为要克服某种阻碍，气流就比较强；发元音时，因无需克服阻碍，气流就比较弱。决定元音音质的因素：主要有三个方面的因素，一、舌位的高低，二、舌位的前后，三、嘴唇的圆展。这三个因素的不同组合，便能发出不同的元音在求语音信号频谱时，频率越高，相应的成分越小。预加重的目的是提升高频部分，使信号的频谱变得平坦。以便于频谱分析和声道参数分析。一般在语音信号数字化后，通过一个

5、一阶数字滤波器：H(z)=1-z-1, 接近 1。为什么取 1030ms，因为根据人的发声生理结构变化的连续性，在此时间段内，声带、声道、口腔的特性几乎不变，语音信号近似平稳。加窗的作用:得到连续的语音特征抑制吉尔伯特效应抑制频谱泄漏窗口的长度 N：频率分辨率 f=fs/N。 f 随 N 的增加而减少，频率分辨率得到提高，但时间分辨率降低(与窗长成反比) 。应根据不同的应用场合来选择窗口的长度 N，应包含7 个基音周期，因此可选择 100300 点为宜。时域波形：幅度时间图。大致得出音节的起始点、清音和浊音以及浊音的基音频率频谱特性：幅度谱图。得出基音周期、共振峰频率及其位置。语音信号的时

6、域分析: 短时能量及短时平均幅度分析 (1.幅度分析的依据：是基于语音信号幅度随时间变化。清音段幅度小，其能量集中于高频段；浊音段幅度较大，其能量集中于低频段。2.短时能量函数和短时平均幅度函数作用:(1)区分清 /浊音：(2) 在信噪比高的情况下，能进行有声/无声判决 (3)大致能定出浊音变为清音的时刻，或反之) 短时过零率分析 (定义：信号跨越横轴的情况。对于连续信号，观察语音时域波形通过横轴的情况；对于离散信号，相邻的采样值具有不同的代数符号，也就是样点改变符号的次数。作用:1.区分清/浊音：浊音平均过零率低，集中在低频端；清音平均过零率高，集中在高频端。2.从背景噪声中找出是否有语音，

7、以及语音的起点。) 短时相关分析短时平均幅度差函数在实际应用中，短时平均过零率容易受到 A/D 转换是的直流偏移、50Hz 交流电源的干扰以及噪声的影响.减少这些干扰可以有两种方法：一种是采用带通滤波器消除信号中的直流和 50Hz 低频分量；另一种是用过门限率来修改过零率，减少随机噪声的影响。短时自相关函数的定义:(1)说明当时域信号为周期信号时，自相关函数也是周期性函数，两者具有同样的周期。(2)Rn(k)为偶函数， Rn(k)Rn(k)(3)Rn(0)最大， Rn(0) |Rn(k)|, Rn(0)=En,对于确定信号， Rn(0)是信号能量；对于随机信号或周期信号， Rn(0)是平均功

8、率。相关函数的作用: 1.区分清/浊音.浊音语音的自相关函数具有一定的周期性。清音语音的自相关函数不具有周期性，类似噪声，有点如语音信号本身。2.估计浊音语音信号的周期，即估计基音周期。短时平均幅度差函数的意义:短时自相关函数是语音信号时域分析的重要参量，但由于乘法运算所需要的时间长。为了避免乘法，一个简单的方法就是利用差值，为此常常采用另一种与自相关函数有类似作用的参量，短时平均幅度差函数。短时平均幅度差函数和自相关函数的关系是：浊音是一个准周期信号，在一帧语音内基音周期近似恒定，因此，短时平均幅度差函数在浊音语音的基音周期上出现极小值，而在清音语音中没有明显的极小值。语谱图: 宽带语谱图

9、窄时窗，时间分辨率高，频率分辨率低纵条纹窄带语谱图横条纹窄时窗，时间分辨率低，频率分辨率高LPC: 提供了预测功能；提供了声道模型和声道模型的参数估计方法；基本思想：语音样本之间存在相关性，一个语音信号的样本可以用过去若干个样本的线性组合来逼近；要想使模型的假定较好的符合语音的实际产生模型主要考虑两个因素：模型的阶数要与共振峰的个数相吻合；声门脉冲形状和口唇辐射影响的补偿。考虑了上述两个因素的线性预测分析，预测误差序列近似于白噪声序列，表明由某一短时信号所得到的线性预测系数能较好的描述产生这段语音的声道特性。线性预测阶数 P 的选择:P 的选择应综合考虑谱估计精度、计算量、存储量；原则：

10、保证有足够的极点来模拟声道的谐振结构,每 kHz 一个共振峰，每共振峰需要两个极点，外加几个逼近零点的极点；经验公式：分析帧长 N 的选择N 小，计算量小；N 大，估计谱的精度高;N 可取 23 个基音周期长度；LPC 谱估计的特点：在信号能量较大的区域（谱峰值的地方），LPC 谱和信号谱很接近；而在谱的谷底相差比较大。倒谱分析：由卷积信号求得参与卷积的各个信号的过程称为解卷过程。解卷算法可以分为两大类：第一类是首先为线性系统 V(Z)建立一个模型，然后对模型参数按照某种最佳准则进行估计，这种方法称为参数解卷方法。采用的模型可以分为全极点模型（AR 模型）和零极点模型（ARMA 模型），如

11、果采用最小均方误差准则对 AR 模型进行KkmxkRkNmnn 0)()(10 0.16)()(0)(2)( 5.0kRkFnn fs10估计，就得到线性预测编码算法(LPC)。第二类算法称为非模型解卷。同态信号处理完成解卷任务就是其中最重要的一种。倒谱分析优缺点：对语音信号的某一帧同样可以分析出它的短时倒谱参数，总的说来，无论对于语音通信、语音合成或语音识别，倒谱参数所含的信息比其他参数多，也就是语音质量好，识别正确率高。但其缺点是运算量比其他参数大，尽管如此，倒谱分析方法仍不失为一种有效的语音信号的分析方法。同态系统可以分解为两个特征系统（即特征系统和逆特征系统）（指取决于信号的组合规则

12、）和一个线性系统（仅取决于处理要求）结论：一个周期冲激的有限长度序列，其复倒谱也是一个同周期长度的周期冲激序列，只是其长度变为无限长度、振幅随着 K 值的增加而衰减，衰减速度比原来序列要快，显然，周期冲激序列的倒谱的这些性质对于语音信号的分析是很有用的，这意味着除了原点之外，可以用“高时窗” 来从语音信号的倒谱中提取浊音激励信号的倒谱，从而使倒谱法提取音调成为现实。.压缩编码原因：语音信号的压缩编码是研究如何降低语音信号编码速率的问题。把数码率低于 64Kbit/s 的语音编码方法称为语音压缩编码技术语音编码分类：波形编码（从语音信号的波形出发，对波形的抽样值、预测值、预测误差进行编码，它以

13、重建语音波形为目的，力图使重建波形接近原信号波形。特点：利用抽样定理，恢复原始信号的波形优点：适应能力强，重建语音质量好缺点：编码速率较高类型： PCM，自适应增量调制（ADM），自适应差分编码调制（ ADPCM），自适应预测编码 APC。速率通常在 16-64kbit/s 范围），参数编码（提取语音的一些特征信息进行编码，在收端利用这些特征参数合成语音。优点：编码速率低。速率通常是在 4.8kbit/s 以下。缺点：语音的音质和自然度较差，很难辨别说话人。（有一定的可懂度) 类型:LPC 线性预测编码），混合编码（波形编码+参数编码。介于波形编码和参数编码的一种编码。即在参

14、数编码的基础上引入了波形编码的一些特征。可在 4-16kbit/s 范围内达到良好的语音质量。类型：子带编码）衡量话音编码器的参数：数据输出速率，延迟时间，话音质量，价格（实现代价）语音信号的冗余度：幅度非均匀分布；样本之间的相关性；周期之间的相关性；基音之间的相关性；静止系数（话音间隙）；长期相关性（long term correlation）对大信号来说，虽然绝对量化误差较大，但是因为：（1）大信号出现的机会不多，（2）信噪比（相对误差）与小信号是一致的，所以对总的话音质量影响不大。增量调制 (delta modulation，DM) 是一种预测编码技术，是对实际的采样信号与预测的采样

15、信号之差的极性进行编码，将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”，则用“1”表示；相反则用“0”表示。DM 编码系统又称为“1 位系统” 。若缩小抽样值（被编码信号）的变化范围，就可以在保证信噪比不变的情况下，减小编码的位数。这就是差值编码的中心思想根据前些时刻的样值来预测现时刻的样值，只要传递预测值和实际值之差，而不需要每个样值的编码都传。这种方法就称为 DPCM 编码。能够实现自适应预测功能，或者自适应量化功能或者同时实现两种自适应功能的 DPCM 系统称为 ADPCM 系统。 ADPCM 的两个目标：尽可能去掉语音信号中的冗余信号

16、；以有效的方式将可用比特分配给语音信号自适应预测：1)前向自适应预测算法（根据短时间的相关特性 R(i),求短时的最佳预测系数；特点:运算量大，延迟时间大，不能用于高速系统。）2）后向序贯自适应预测算法（采用不断修正预测系数hi(n)的方法来减小瞬时平方差 Ed(n),使hi(n)逐步的接近hiopt(n) 。）最佳量化：分层电平为相邻量化电平的中点量化电平是该量化间隔内经常出现的瞬时电平值自适应量化的基本思想：自适应量化的基本思想是使量化器的量化级（阶距）能够随着输入信号 d(n)瞬时值得变化作自适应调整，从而使量化误差的均方值最小。即:自适应量化指量化台阶随信号变化而变化，使量化误差

17、减小实现方法：前向自适应量化（AQF)：优点：量化误差小，信噪比大；缺点：量阶的信息要与话音信号一起送到收端译码器，否则，收端无法知道该时刻的量阶值后向自适应量化(AQB)：优点：接收端不需要量阶的信息，因为量阶的信息可以从接收码中提取，码速率低，实现容易。缺点：因为量化误差影响量化值得准确度，即信噪比下降，但影响较小。32kb/sADPCM 算法主要技术指标：（1）语音信号经过 ADPCM 编码后，客观测量 SNR应完全符合 PCM 系统的指标要求，主观听觉测试性能非常接近于 PCM 质量。（2）经过四次音频转接后，主观语音测试质量良好，主观平均分（MOS）大于 3.5 以上。（3）在信

18、道误码低于 0.001 的情况下能稳定工作标量量化对语音信号的每个取样值，或语音信号的每个特征参数值分别独立地进行量化，称为标量量化（一维）。矢量量化将语音信号的取样值或语音的特征参数值分成若干组，每组构成一个矢量，然后分别对每个矢量进行量化。这种量化就称为矢量量化（N 维）。可认为矢量量化是首先路标量组成若干数据块将各数据块分别看做一个单元，然后对各单元进行量化”因此，这种方法有时也称块量化。对大量的 K 维矢量进行以最佳邻近准则和最小失真准则的统计划分，使其从无限的矢量空间聚类划分为 M 个有限的区域边界，而每个区域有一个中心矢量值，即码字，故共有 M个码字，各码字的下标或序号的集合

19、则构成了一本反映训练时 K 维矢量的码本(codebook)，也称训练矢量集码本。LBG 算法：(1)初始化(2)码本分割(3)码字更新(4)码矢更新(5)码本大小确认失真侧度：(1)欧氏距离 D (x,y)=|x y |r/N, (01N-1) -均方误差 -绝对值平均误差 (2)对数频谱距离 V(w)=log(f()-log(g() D ( g,f)=|V(w)|r dw/2 (3)倒谱距离 D (x,y)=(c c )2, (1np)语音信号的参数编码：见上参数编码：1.通道声码器 2.共振峰声码器 3.线性预测声码器混合编码：1.基于全极点模型 MPLPC,CELP；2.基于正弦模型

20、MBE码激励线性预测(CELP)：基本思想 :是用一个矢量量化所产生的码本中的码字表示每帧的长时预测所得到的残差；两种构成码本的方法：“确定性“和“随机性”码本。语音识别方法：模版匹配法;随机模型法; 概率语法分析法 ;基于 ANN 的方法、基于模糊数学的方法、句法语音识别等语音识别的问题和困难：连续语音中音素、音节或单词之间的调音结合引起的音变使基元模型之间的边界不明确；语法语义规则的建立与理解很难；语音信息的变化很大,不同人不同，同一个人也不同；语音的模糊性；单个字母及单个词发音时的语音特性受上下文环境的影响，音量、音调、重音、音速等都可不同；环境噪声和干扰对语音识别有严重影响；语音识别原

21、理:模式匹配原理：未知语音模式与已知语音模式逐一比较，最佳匹配的参考模式作为识别结果。识别步骤：1.学习训练分析语音特征参数，建立模板库；2.识别测试按照一定的测度和准则与系统模型进行比较，通过判决得出结果；语音识别本质就是模式识别预处理:反混叠滤波；模/数转换；自动增益控制；去除声门激励和口腔辐射;正确选择识别单元；特征提取:从波形信号获取一组描述语音信号特征的参数；参数的好坏对识别精度影响很大；识别参数：平均能量、过零率、频谱、共振峰、倒谱、线性预测系数、HMM 的概率函数、矢量量化的矢量;可以一种或多种参数并用；需要考虑参数的稳定性、识别率、计算量等；对于汉语还存在声调的提取（超音段信

22、息）；距离测度:欧氏距离及其变形；对数似然比失真测度；加权超音段信息识别测度；HMM 之间的距离测度；主观感知距离测度；DTW 的基本思想：将时间规整与距离测度结合起来，采用动态规划技术，比较两个大小不同的模式，解决语音识别中语速多变的难题；一种非线性时间规整模式匹配算法；DTW 的问题：运算量大；识别性能过分依赖于端点检测；太依赖于说话人的原来发音；不能对样本作动态训练；没有充分利用语音信号的时序动态特性；DTW 适合于特定人基元较小的场合，多用于孤立词识别；如果一个过程的“将来” 仅依赖“ 现在”而不依赖“过去”，则此过程具有马尔可夫性,或称此过程为马尔可夫过程 X(t+1) = f(

23、 X(t) )时间和状态都离散的马尔科夫过程称为马尔科夫链HMM 是一个双重随机过程，两个组成部分：马尔可夫链：描述状态的转移，用转移概率描述。一般随机过程：描述状态与观察序列间的关系，用观察值概率描述。HMM 的应用领域:语音识别; 机器视觉( 人脸检测,机器人足球);图像处理(图像去噪,图像识别);生物医学分析(DNA/蛋白质序列分析)HMM 语音识别系统的实现:语音信号预处理与特征提取;声学模型与模式匹配;语言模型与语言处理两种正则方程解法的对比性能自相关法协方差法窗口函数需要不需要稳定性可以保证不能保证有限字长时的稳定性不能保证不能保证乘法运算量 pN+p2 参数精度最差最好正常人的听觉系统是极为灵敏的，可听声的范围为 0.02Hz-20kHz。短时掩蔽:前向掩蔽：若被掩蔽声 A 出现后，相隔(0.05s,2s)之内出现了掩蔽声 B，对 A 起掩蔽作用，因为 A 声尚未被人所反应接收而强大的 B 声已来临;后向掩蔽：掩蔽声 B 即使消失后，其掩蔽作用仍将持续一段时间，约(0.5s,2s)，这时由于人耳的存储效应所致。6233ppN

展开阅读全文