数字语音处理复习题.doc-道客多多

资源描述

1、第一章绪论1.语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性的学科。p1d32.语音信号处理的应用技术列举：语音编码、语音识别、语音合成、说话人识别和语种辨识、语音转换和语音隐藏（语音信息伪装、语音数字水印技术）、语音增强等 p4d33.当前语音信号处理应用的 3 个主流技术：矢量量化技术、隐马尔可夫模型技术、人工神经网络技术。p4d3第二章语音信号处理基础知识1.语音是组成语言的声音，是声音（Acoustic）和语言（Language）的组合体。p5d22.语音的基本声学特性包括音色，音调，音强、音长。p7d2 音色：也叫音质，是一种声音区别于另一种声音的

2、基本特征。音调：是指声音的高低，它取决于声波的频率。音强：声音的强弱，它由声波的振动幅度决定。音长：声音的长短，它取决于发音时间的长短。3. 说话时一次发出的，具有一个响亮的中心，并被明显感觉到的语音片段叫音节（Syllable）。一个音节可以由一个音素（Phoneme）构成，也可以由几个音素构成。音素是语音发音的最小单位。p7d34.任何语言都有语音的元音（Vowel）和辅音（Consonant）两种音素。p7d38.当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时，这些声腔完全开放，气流顺利通过，这种音称为元音。p7d39.呼出的声流，由于通路的某一部分封闭起来或受到阻碍，

3、气流被阻不能畅通，而克服发音器官的这种阻碍而产生的音素称为辅音。p7d37.发辅音时由声带是否振动引起浊音和清音的区别，声带振动的是浊音，声带不振动的是清音。p7d38.元音构成音节的主干（因为无论从长度还是能量看，元音在音节中都占主要部分。）p7d39.元音的一个重要声学特性是共振峰（Formant）。共振峰参数是区别不同元音的重要参数，它一般包括共振峰频率（Formant Frequency）的位置和频带宽度（Formant Bandwidth）。p7d5 16.人类的声道和鼻道可以看作是非均匀截面的声道管，声道管的谐振频率称为共振峰频率（共振峰）。p7d510.汉语音节一般由声母

4、、韵母和声调三部分组成。汉语普通话中有 6000 多个常用字，每个汉字是一个音节。p10d610. 发浊音时，气流通过声门时使声带发生振动，产生准周期激励脉冲串，这个脉冲串的周期就称为基音周期（pitch），其倒数成为基音频率。11.汉语是一种声调语言，声调的变化就是浊音基音周期（或基音频率）的变化。p14d513. 无论是单音节语音还是连续语音，其中浊音段的基因频率是随时间而变化的，基因频率的不同轨迹成为声调。p9d1114. 当两个响度不同的声音作用于人耳时，响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象成为掩蔽效应。15.语音信号的生成模型可由激

5、励模型、声道模型和辐射模型三个子模型构成，三者是串联（串联/并联）的关系。p21-2616.语音信号激励模型一般分为浊音激励和清音激励，发浊音时激励模型为脉冲波。p21d617.语音信号激励模型一般分为浊音激励和清音激励，发清音时激励信号通常被模拟为随机白噪声。p22d216.语音信号生成模型的辐射模型是一阶类高通滤波器。 p25d217.设截取的一段语音共有 160 个样本，而采样频率为 8kHz，则该段语音持续时间为20ms。18.设采样频率为 8kHz，则 25ms 长的语音共有 200 个采样值。18.研究语音的时频分析特性所采用的与时序相关的傅立叶分析的显示图形称为语谱图（Sonog

6、ram，或者 Spectrogram）p29d119.语谱图是一种三维频谱，它是表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间，任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。p29d120.传输函数形式为的共振峰模型为（2）数学模型；11()MiiaVzbzc1.全零点；2.全极点；3.极零点；4.以上都不是；21.传输函数形式为的共振峰模型在结构上为（1 ）模型；121()MiiaVzbzc1.级联型2.并联型；3.混合型；4.以上都不是；22.传输函数形式为的共振峰模型为（3）数学模型；121()MiiAVzBzC1.全零点；2.全极点；3.极零点；4.以

7、上都不是；23.传输函数形式为的共振峰模型在结构上为（2）模型；11()MiiAVzBzC1.级联型2.并联型；3.混合型；4.以上都不是；24.简述语音产生过程的三个模型：25.基音频率、共振峰、语谱图的概念，会从语音波形中识别基音周期与共振峰频率。发浊音时，气流通过声门时使声带发生振动，产生准周期激励脉冲串，这个脉冲串的周期就称为基音周期（pitch），其倒数成为基音频率。一般来说，男性说话的基音频率大致分布在 50-200Hz 范围内，女性和小孩的基因频率在 200-450Hz 之间。人类的声道和鼻道可以看作是非均匀截面的声道管，声道管的谐振频率成为共振峰频率，简称共振峰。共振峰由低

8、到高依次为第一共振峰、第二共振峰、第三共振峰、。。。，相应的频率用 F1、F2 、F3 。。。。表示。一般浊音中可以辨识的共振峰有 5 个，其中前三个对于区别不同语音至关重要。语谱图描述了语音信号随时间而变化的频谱特性。纵轴对应于频率、横轴对应于时间，图像的黑白度对应于信号的能量。26.汉语中的四种声调与基音频率的关系是什么？无论是单音节语音还是连续语音，其中浊音段的基因频率是随时间而变化的，基因频率的不同轨迹成为声调。29.音调：音调是听觉分辨声音高低时，用于描述这种感受的一种特性。音调与声音的频率并不成正比，还与声音的强度及波形有关。描述音调的单位是美（mel）。一个高于听

9、阈40dB、频率为 1KHz 的纯音所产生的音调定位 1000mel，如果一个纯音听起来比 1000mel的声音调子高一倍，则其音调为 2000mel。音调与频率的关系近似表示为：32.lg(10.)mel HzTf27.掩蔽效应：当两个响度不同的声音作用于人耳时，响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象成为掩蔽效应。第三章语音信号分析21.语音信号分析采用短时分析技术。p32d220. 语音信号分析，根据所分析出的参数的性质的不同可以分为：时域分析、频域分析、倒频域分析、线性预测分析等。根据分析方法的不同，分为模型分析方法和非模型分析方法两种。

10、p32d322.由于辐射模型的影响，语音信号高频部分衰减较大，所以在预处理中需采用预加重技术，即提升高频部分，使信号的频谱变得平坦。23.不论是分析怎么样的参数以及采用什么分析方法，在按帧进行语音分析，提取语音参数之前，有一些经常使用的、共同的短时分析技术必须预先进行，如语音信号的数字化、语音信号的端点检测、预加重、加窗和分帧等23.语音信号加窗、分帧常用的窗函数有矩形窗、汉明窗等（列举两个）。25.对于频率分布为 03400Hz 的语音信号，最低无失真采样频率应为 6800Hz25.若信号波形的变化足够大，或量化间隔足够小时，以下有关量化噪声描述错误的是（4）p33d21.是平稳的白噪声

11、过程2.量化噪声与输入信号不相关3.量化噪声在量化间隔内均匀分布，即具有等概率密度分布4.是服从高斯分布的随机过程26.以下那种分析不属于语音信号时域分析？（4）1.短时过零率分析；2.短时相关分析；3.短时平均幅度差函数；4.同态分析；短时能量的主要用途不包括以下那一项（4）p38d51.可以区分浊音段和清音段；2.可以用来查找声母和韵母的分界；3.可以用来查找无声和有声的分界；4.可以区分高频和低频分量；24.采用自相关函数法对基音周期进行估计时，先用 60900Hz 的带通滤波器对语音信号进行滤波，以下描述错误的是（4）p71d21.可减少共振峰的影响；2.可抑制 50Hz 的电源干扰；

12、3.可保留基音频率的一、二次谐波；4.为了防止 8kHz 采样时发生混叠干扰；定义语音信号的短时自相关函数为：()nxm()nRk，则以下表述错误的是（2）：p40d310(),0NknnRkK(1) 如果是周期的，则是同周期的周期函数；nx(n(2) 是奇函数；()k(3) 0nnR7.设序列 x(n)的短时能量定义为： 2().nmExwn其中窗函数表示为： ,0()a试求 En 的一个递推公式，用 En-1 和输入 x（n）表示 En8.设序列 x(n)的短时能量定义为： 2().nmExwn其中窗函数表示为： ,()0aNothers试求 En 的一个递推公式9.设短时平均过零

13、率的定义为： 1sgn()s(1)2nNZxmx证明 1sg()sgn(1)nZxNx 1.语音的时变性与短时平稳性(p32d2)：语音信号的波形有些波形段有较强的周期性，有的波形段有较强的噪声性，并且周期性语音和噪声性语音的特征也在不断变化中，从而具有时变性。但在较短时间内（10-30ms）语音信号的特征可以认为基本保持不变，这就是语音信号的短时平稳性。11.常用的时域基音检测算法有哪些（任选两种作答）？它们的基本原理是什么？自相关函数法：浊音信号的自相关函数在基音周期的整数倍位置上出现峰值；而清音的自相关函数没有明显的峰值出现。因此检测是否有峰值就可判断是清音或浊音，检测峰值的位置就可提

14、取基音周期值。短时平均幅度差函数法：对周期性的浊音语音，短时平均幅度差函数也呈现与浊音语音周期相一致的周期特性，短时平均幅度差函数在周期的各个整数倍点上具有谷值特性而不是峰值特性，可确定基音周期；而对于清音语音信号，短时平均幅度差函数却没有这种周期特性。利用短时平均幅度差函数的这种特性，可以判定一段语音是浊音还是清音，并估计出浊音语音的基音周期。12.浊音与清音的短时能量、短时平均过零率、短时自相关函数和短时平均幅度差函数有什么差异？导致这些差异的根本原因是什么？相对来说浊音的短时能量大、短时平均过零率低、短时自相关函数的峰值位置具有周期性，短时平均幅度差函数的谷值位置具有周期性。这是因为浊

15、音是由声带振动引起的脉冲波激励声道产生的，能量较大，频率较低，具有与激励波相同的周期性结构，而清音是由白噪声激励而产生，能量较低，频率较高，不具有周期性。13.若用信号的短时傅立叶变换来定义其短时能量谱密度： 2jjnnSeX同时定义信号的短时自相关函数为： ()()()(nmRkwxkmxk证明当时，与互为傅立叶变换对。()()j jnXexe()nR)jnSe15.设阶线性预测器表达式为，证明在最小均方预测误差准则下，预p1()()pisnas测系数满足方程组：，其中1,pa 1(0,)(,)1,2pijjp。(,)()ijEsmij解：预测误差为，1()()pinssna

16、s均方误差为，为使 E 2(n)最小，对 aj 求偏导，2 21()()()piE并令其为零，有：，即1()()0,1.,pisnasnjjp1()(),piEsnjEj又因为，代入上式有(,)()ijsnij1.(0,)(,)1,2pijajp设语音信号的线性预测模型为，模型增益()0.9(1).4(2)0.1(3)snsns，求该语音信号的线性预测谱表达式。p591G解： 1()()piiSzGHEAza231()0.9.40.1jpjjjjiieeeae第四章矢量量化技术1.根据量化的值的维数的不同，量化可分为标量量化和矢量量化。2.矢量量化常用的失真测度有：欧式距离测度、加权

17、欧式距离测度、Itakura-Saito 距离、似然比测度和识别失真测度。3. 训练矢量量化码本时，初始码本的生成可采用随机选取法、分裂法、链映射法等。3.矢量量化 LBG 算法每次迭代时将训练集分割为若干个子集所依据的是（1）：1.最邻近准则；2. Centroid 质心条件；3.收敛准则；4.熵极大化准则；3.矢量量化 LBG 算法每次迭代时计算新码字所依据的是（2）：1.最邻近准则；2. Centroid 质心条件；3.收敛准则；4.熵极大化准则；第五章隐马尔可夫模型1.HMM 是一个双内嵌式随机过程。2.HMM 的输出符号序列可见，而状态序列不可见。3.下图是一个三状态 HMM，S

18、 1 是起始状态，S 3 是终了状态，该 HMM 只能输出 a 和 b 两种符号，由下图的 Viterbi 算法可知输出 aab 的最佳路径为 S1-S1-S2-S33.对于语音识别用 HMM，可用六个参数来定义，这六个参数分别,MSOABF表示什么？S 是模型中状态的有限集合；O 是输出的观测值序号的集合；A 是状态转移概率的集合；B 是输出观测值概率的集合；pai 是系统初始状态概率的集合；F 是终了状态的集合。1.从左到右型 HMM（即状态的转移只能从左到右或者停留在原状态，不能返回到以前的状态）的状态转移矩阵具有何种形式？（1）1.上三角矩阵；2.下三角矩阵；3.对称矩阵；4.非奇异

19、矩阵；2.针对给定的 HMM 模型，寻找与给定观察字符序列对应的最佳状态序列可采用（3）1.前向算法；2.后向算法；3.Viterbi 算法；4.Baum-Welch 算法训练 HMM 模型采用（ 4）1.前向算法；2.后向算法；3.Viterbi 算法；4.Baum-Welch 算法；下图是一个三状态 HMM，S 1 是起始状态，S 3 是终了状态，该 HMM 只能输出 a 和 b 两种符号，试求解：（参考 P98）1.该 HMM 的转移概率矩阵 A；2.从 S1 出发到 S3 截止，输出符号序列 abb 的概率；3.最大可能的状态序列；第七章语音编码1.语音编码（Speech Codin

20、g）的目的是在保证语音质量和可懂度的条件下，采用尽可能少的比特数来表示语音。即降低数码率。2.信源编码主要解决有效性问题；信道编码主要解决可靠性问题。3.语音编码通常分为三类：波形编码、参数编码与混合编码。4.波形编码力图使重建后的语音时域信号的波形与原语音信号保持一致。具有适应能力强、话音质量好等优点，缺点是编码速率高。5.参数编码又称声码器技术，从听觉感知的角度注重语音的重现，通过建立语音信号的产生模型，提取其特征参数来编码，波形上不要求与原信号匹配。优点是编码速率低；缺点是语音质量差，自然度低，对环境噪声敏感。6.若普通电话通信中采用 8kHz 采样，并进行 12bit 量化，则数码率为

21、 96Kbit/s。7.对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。8.人的听觉生理和心理特性对于语音感知的影响主要表现在：1）人类听觉系统具有掩蔽效应；2）人耳对不同频段声音的敏感程度不同；3）人耳对语音信号的相位变化不敏感。9.感觉加权滤波器是根据人耳的掩蔽效应来设计的。p138d110.均匀量化的特点是：大信号时量化信噪比大，小信号时量化信噪比小。10.在增量调制（DM）中，语音信号波形发生急剧变化时，容易出现译码波形不能充分跟踪这种急剧变化而产生失真的现象，称为斜率过载。p150d311.利用参数编码实现语音通信的设备通常称为声码器。p161d312.LPC

22、声码器采用的编码方式为参数编码（波形编码/ 参数编码）。7 语音信号中存在多种冗余度是语音信号可进行压缩的重要依据，下列选项中（ 4 ）属于频域冗余度（1）语音信号幅度非均匀分布性（2）语音信号样本间的强相关性（3）浊音语音段具有的准周期性（4）非均匀的长时功率谱密度9.下列选项中，（）不属于波形编码方式（1）PCM（2）APCM（3）DM（4）LPC 声码器8.语音中最基本的元素是音素，设语音的音素共有 128 个，并假设通常的说话速度为每秒平均发出 10 个音素，请从信息论角度计算语音信号压缩编码的极限码率。p13611.一帧典型的 LPC 参数包括 1bit 清浊音信息、5bit

23、增益常数、6bit 基因周期、每个 LPC系数 6bit，共 8 个 LPC 系数，如果一帧时长 20ms，请计算该 LPC 声码器的码率。p162解：（1+5+6+6*8）/0.02=3000bit/s第八章语音合成共振峰合成法属于（3 ）1.波形合成法；2.LPC 合成法；3.参数合成法；4.规则合成法；第九章语音识别1.语音识别从所识别的对象来分，可分为：(1)孤立词语音识别系统： (2)连接词语音识别系统； (3)连续语音识别系统；(4)语音理解；(5) 会话识别。2.语音识别按词汇量来分，可分为：小词汇量、中词汇量、大词汇量语音识别系统。3.语音识别从讲话人范围来分，可分为单个特定讲话人识别系统、多讲话人、与讲话者无关。4.以下是一个矢量序列与模板的距离参数，输入适量长度为 4，模板长度为 5，利用 DTW原理计算最佳路径5 0.3 0.14 0.1 0.1 3 0.2 0.2 2 0.2 0.1 1 0.1 JI 1 2 3 4

展开阅读全文