收藏 分享(赏)

第11章 多带激励声码器.ppt

上传人:gnk289057 文档编号:8305917 上传时间:2019-06-19 格式:PPT 页数:51 大小:1.74MB
下载 相关 举报
第11章 多带激励声码器.ppt_第1页
第1页 / 共51页
第11章 多带激励声码器.ppt_第2页
第2页 / 共51页
第11章 多带激励声码器.ppt_第3页
第3页 / 共51页
第11章 多带激励声码器.ppt_第4页
第4页 / 共51页
第11章 多带激励声码器.ppt_第5页
第5页 / 共51页
点击查看更多>>
资源描述

1、国家“十一五”规划教材 数字语音编码讲议同济大学电子与信息工程学院 赵晓群 编著 机械工业出版社,2007年,第11章 多带激励声码器 11.1 概述 CELP、MPLPC等:全极点模型、LPC 分析,合成-分析法,听觉加权方均误差准则,闭环确定激励参数。 这类混合编码,在 4.816 kbit/s 码率内获得巨大成功。 关键技术:是保持了合成语音与原始语音波形的相似性。 再降数码率时,合成语音质量迅速下降。 LPC 声码器:(清/浊音)二元激励模型,分析-合成法,LPC 分析,清/浊音判别,估计基音周期。 SNR 较高时,2.4 kbit/s 及以下码率,语音可懂度相当高。 以上编码器,当噪

2、声较大时,因无法准确提取参数,性能严重恶化; 其它声码器,如通道声码器、同态声码器等也有同样弱点。,产生原因:二元激励模型过于简化,不符合实际语音的特性。许多语音段,同时含周期性、非周期性分量,过渡音段、有噪浊音段更是如此。当用二元谱来拟合时,合成语音缺乏自然度。 1988 年 MIT 林肯实验室提出多带激励(MBE)语音编码,突破二元激励的局限性,对多个频带逐个进行 V/U 判决,故称为多带激励模型。采用合成-分析法,在 2.4 4.8 kbit/s 码率时性能优良。改进方案被国际海事卫星组织采用(INMARSAT-M Voice Codec),码率为 6.4 kbit/s。 本章主要内容:

3、MBE 原理,参数提取方法,合成语音的方法。重点介绍 INMARSAT-M Voice Codec 标准的算法。,第11章 多带激励声码器 11.2 多带激励语音模型 窗选语音信号为(窗长 2040 ms): 源-系统语音模型理论,语音段是线性系统(声道)对某种激励信号的响应。 设系统的单位脉冲响应为,则的 Fourier 变换可表示为:式中 Hw(), Ew() hw(n), ew(n) 的 Fourier 变换。 重建语音信号谱 Xwr() 可表示为:式中 Hwr() 合成滤波器的系统函数;Ewr() 合成滤波器的激励信号的 Fourier 变换。两者皆从原始语音信号中分析提取。,清音波形

4、,Hwr() 用全极点函数来逼近,相应于 Xwr() 的谱包络。 MBE 按基音各谐波,将语音分成若干个子频带(如以 3 个相邻的谐波频带为一组进行分带),分别对各子带进行 V/U 判决,激励信号为各子带的和。 清音带:用白噪声谱作为激励信号谱; 浊音带:用周期性的 Pw() 作为激励信号谱。 激励信号是周期性信号与非周期性噪声按不同频带混合而成。 系统函数 Hwr() 的作用是:调整各子带分量的相对幅度和相位,并将 Ew() 映射成 Xw() 。 该模型较符合实际语音的特性,使合成语音谱同原语音谱在频谱精细结构上拟合得更好。 若还利用谱的相位信息,则能够合成出高质量的语音。,图11.1:典型

5、的浊音、清音和混合语音段的分析-合成情况。 MBE 编码过程涉及三种参数的提取, 基音频率; 每个子带的谱包络的幅度和相位参数; 每个子带的 V/U 判决。 图11.2:MBE 语音编/解码器的简化原理图。,(a) 浊语音段 (b) 清语音段 (c) 混合语音段 图11.1 语音MBE的分析-合成波形(10 kHz采样,256点Hamming窗),第11章 多带激励声码器 11.3 多带激励语音分析 MBE模型参数的最优提取,计算量大,工程难以实时实现。 常用次优算法,分两步完成参数的提取: 确定基音频率和每个分带的谱包络参数,用 AbS 法提取; 对每个分带进行 V/U 判决。 有两种参数提

6、取方案:使下列加权积分值(加权方均谱误差)为最小:应使下列加权积分值达到最小: 式中 G() 频率加权函数;Xw(), Xwr() 原始语音谱和合成语音谱。,差别:方案 利用语音谱的模值;方案 利用模值和相位,性能优于 , 但计算复杂,码率有所增加。,INMARSAT-M Voice Codec 采用方案。 本节主要内容:11.3.1 频域分析11.3.2 时域分析11.3.3 INMARSAT-M 改进 MBE 模型分析算法,11.3.1 频域分析1. 基音估计及各次谐波幅度的计算 设基音周期为 T0(基音角频率 0=2/T0 )。依次假设 0 为各种可能出现的值。 对于可能的基音角频率值0

7、 ,将=- 分为若干频带,分界点为:am=(m-0.5)0, bm=(m+0.5)0, m=0,1,(M+1) 设每个分带 am, bm 中 Hwr() 保持不变,Hwr()= Am,则有:式中 总的加权方均谱误差; m 第m子带加权方均谱误差,或,仅考虑 幅度谱时,考虑幅度、 相位谱时,令 或 ,由上两式可分别解得一组最佳 和 :或 若第 m 次谐波的能量显周期性,则其能量集中在该谐波附近;选周期性 Pw() 的作为激励信号 Ewr(),则合成语音谱Xwr() 与窗选语音谱 Xw() 在第 m 次谐波带内将拟合得很好( m 最小)。 若第 m 次谐波的能量显非周期性,则 Xw() 在该频带内

8、没有特征性的形状。仍用 Pw() 作为激励,m 值将较大。此时,应选噪声为激励。,仅考虑 幅度谱时,考虑幅度、 相位谱时,分析周期性与非周期性信号激励时的最佳解。 浊音频带时,选 Pw() 为激励信号,由上页两式得:清音频带时,激励采用理想白噪声(幅度谱 = 1),则有:,仅考虑幅度谱时, 最佳谱幅度,考虑幅度、相位谱时, 最佳谱包络。,相位信息无关紧要, 在此无需计算 Am。,对于假定基音频率 0 的每一个谐波,计算 Am 或 Am ,再求出各次谐波内的最小误差 。则整个频带的总的最小误差: 每假设一个基音频率 0,计算出对应的 0。显然,正确的基音周期或其倍数上,0 取极小值。 搜索 0

9、的全局最小值对应的 T0=2/ 0 值可能是正确的基音周期的某个整数倍值。 因而,还需要对T0/2、T0/3、处的 0 进行校核,以判断正确的基音周期,从而确定最佳基音周期。 最后确定最佳基音周期时,还需要考虑前后帧的情况。一般相邻帧的 T0 值变化不会太大。,2. 谐波频带内 V/U 判决 第 m 子带的归一化误差能量为:采用激励信号 Pw()(谱幅度Am 或谱包络 Am、周期 T0 )是第 m 谐波子带的谱拟合误差。 令频率加权函数 G()=1,上式化简为:子带判决:可以将相邻的几个谐波频带合并成一个子频带,用上述同样的方法提取Am 或 Am,并进行 V/U 判决。,11.3.2 时域分析

10、 W():窗函数 w(n) 的 Fourier 变换,0:归一化基音角频率(基音周期 T0,0= 2/T0) 假设在 - 频率范围内共 2M 个谐波,Pw() 为激励时,有:式中,,令频率加权函数 G()=1 ,由前面给出的式子得,全带拟合误差:式中, 由上式可求出使 取极小值的矢量 a 为:再代入上式,结合上页式,得:式中, 因此,对于某个选定的 T 值时,计算 min 等价于 max 。,注:上标 T 为转置H 为共轭转置,为了方便,选择窗函数 w(n),使其满足频域内正交条件: , I 是单位矩阵;相当于时域内满足条件:还要求其 Fourier 变换的泄露足够小,主瓣宽度足够窄 (此宽度

11、不应大于基音频率值) 。 满足上述条件且 w(n) 为偶函数时,上页计算 式可改写为: 注意到 0M= 近似成立,且 0T=2 ,则上式可简化为:式中 T 假定的基音周期; w2(n)x(n) 的自相关函数,,由 Parseval 定理,总拟合误差写成: 为了去除由于 T 值增加造成的下降,需要对上式修正,以保证真正的基音周期对应的是全局最小值。 采用无偏拟合误差公式如下: 采用此修正后,归一化总误差能量应写成下列形式:,设窗函数 w(n) 长为 2N+1,以原点对称。同时假设在窗长范围内有 L 个假设基音周期,即:则上页式中,uB的求和上下限应作相应的改动,即得到:为粗搜索时确定初始基音周期

12、 TI 所用的拟合误差时域表达。 为提高精度,T 值也可取非整数,如 20.5, 21, 21.5。 非整数点上的相关函数可插值计算:实验表明,10 kHz 采样,基音周期的精确可达 0.04 样点。 数码率较低时(4.8 kbit/s以下),精确到 1/4 1/8 样点也就满足要求了,这样运算量可以减少很多。,11.3.3 INMARSAT-M 改进 MBE 模型分析算法 图11.3:INMARSAT-M 改进 MBE 模型算法框图。 语音信号: 8 kHz 采样,线性 PCM 编码,语音样值的最大值定标范围:214-1,215-1最小值定标范围:-215,-214 需求出改进 MBE 模型

13、参数:基音角频率、V/U判决,子带谱包络参数(仅考虑幅度谱)。,1. 高通滤波 语音经数字高通滤波器,滤除信号中的直流分量。高通滤波器的截止频率约 10 Hz,传递函数为:2. 低通滤波 低通滤波器输出的信号按下式计算: 低通滤波器是 21 阶 FIR 数字滤波器,其系数值列于表11.1。,3. 基音估计 基音估计算法:应保持相邻语音帧基音周期的某种连续性。 基音跟踪算法:在确定当前帧的基音周期时要考虑相邻的过去帧和将来帧的影响。 图11.4:当前帧和前后帧之间的关系。 帧长为 20 ms(160 个样点)。基音估计算法分:初始估计、精细估计两步进行。 初始估计得到初始基音周期:TI,TI D

14、 =21,21.5,114 ,精度: 1/2 采样周期;再由精细估计得出归最终基音周期,精度:1/4 采样周期。 两步法可降低计算复杂度和提高鲁棒性。,算法的重要特点:初始估计和精细估计使用不同长度的窗函数。初始估计窗 wI(n) 长为 281 个样点;精细估计窗wR(n) 长为 221 个样点;皆是对称三角形窗,两窗中点对齐。 相邻语音帧之间的重叠量是窗长的函数,重叠量 = 窗长 - 帧移动量(160 个样点)。 wR(n)时,重叠量 61 个样点;wR(n) 时,121个样点。(1) 基音的初始估计 (步骤见图11.5 )对每一个可能的基音周期 TD,计算误差函数值 E(T)。然后通过前向

15、与后向基音跟综算法,比较求出的值,最终选择最佳的候选者作为 TI 。, 计算误差函数 根据归一化总误差能量定义,误差函数 E(T) 定义为: 式中 wI(n) 归一化三角形窗函数,满足 。 当 t 为整数值时,自相关函数 (t) 定义为: 当 t 为非整数值时,用线性内插公式计算 (t)。 基音周期的初始估计 TI 为: 采用基音跟踪算法,保证基音周期 TI 的连续性。, 后向基音跟踪 E-1(T-1)、E-2(T-2) 过去两帧对应的误差函数值; 因基音周期的连续性,当前帧的基音周期 T 应在 T-1 附近,应满足约束条件:在上式范围内逐个选取 T,并计算相应的 E(T) ,使 E(T) 最

16、小的 T 就是后向估计 TB,计算后向累计误差 CE(TB):CE(TB) 是后向基音估计的置信度测度。, 前向基音跟踪 E1(T1)、E2(T2) 将来两帧对应的误差函数值; 将来两帧的基音周期尚未确定,前向基音跟踪算法必须首先设法确定这些基音周期值。 在集合 D 内选定一个 T0,按下面的约束条件选取T1 、T2: 使E1(T1)+E2(T2)最小的T1 、T2表示为 ,并按下式计算前向累计误差函数 CEF(T0) 为: 重复上述过程,在规定的范围内逐个选定 T0,计算相应的CEF(T0) ,使其最小的 T0 定义为 。,为防止倍基音周期,考虑 取 的可能性。 要求 ,选择一个与其最接近的

17、值代替。再检查是否满足下列三个条件之一、且为最小值的 , 若有,则前向基音估计 ;否则 。完成前、后向基音跟踪,并求得估计值后,按下列判决规则确定初始基音估计 TI:If CEb(TB)0.48 then TI =TB else if CEb(TB)CEF(TF) then TI =TB else TI =TF 最终的基音估计的精度提高到 1/4 采样周期。,(2) 基音的精细估计 图11.6:基音精细估计的方框图。 精细估计窗 wR(n): 长 221 个样点,归一化三角形窗。 由基音初始估计 TI,产生 10 个基音精细估计的候选值:将其转换为相应的基音频率 0=2/T0。然后在这 10

18、个点上进行细搜索,确定基音周期的精细估计。, 计算窗选语音和窗函数的离散 Fourier 变换。 对窗选语音信号,计算 256 点 DFT:对窗函数,计算 16384 点 DFT:(扩大点数,可保证精度) 对每一个假设的 0,求各谐波的最佳谱包络值 Am(0)。 选定 0,则在 - 之间有个 2/0 谐波分量,两个相邻谐波之间含有 2560 / 2 个语音信号的 DFT 点。 对于第 m 次谐波,它的频带下限、上限为:其中,INT x 表示取大于或等于 x 的最小整数。,根据式:因窗选激励 Pw() 在频带内与窗函数主瓣包络形状相同,故用 WR() 代替 Pw() 。 这意味着语音改变一个样点

19、,窗改变 64 个样点。因此,最佳用下式计算: 计算合成语音谱。 按下式计算:, 计算加权总拟合误差,选择最佳 0 (或 T0 )。 采用 DFT 的总拟合误差为:在细搜索中,主要考虑高次谐波频带拟合的情况,因此,加权函数在低频端可以取 0,求和下限不从 1 开始;高频端可以取 1,求和上限也不必达到 127。 语音频谱一般限制在 2003600 Hz范围内。故按下列公式确定求和上限 q: 总拟合误差可以改写成:对 10 个候选基音频率,逐个计算出总拟合误差,使其最小的 0 是当前帧基音周期的精细估计值。,利用偶对称性, 只计算了一半的值,4. V/U 判决 图11.7:V/U 判决的方框图。

20、 利用每个谐波处合成谱与窗选语音谱拟合的程度来确定。若归一化拟合误差 阈值,判定该谐波频带为浊音带;反之为清音带。 采用 DFT 时,前面推导的归一化误差应改写成:也可将几个相邻谐波频带合并成一个频带,根据该频带总拟合误差作出该带的 V/U 判决。,实用 V/U 判决方案:最多分 12 个带,判决方法如下: 确定谐波的个数 M。 计算式: 确定子带的个数 K。 每个子带包含 3 个谐波分量(见图11.8)。子带数的计算式:, 计算各带的归一化拟合误差。计算式:, 计算 V/U 的判决阈值。计算式:第一项:随 0 增大而变大。当 0 增加时谐波个数将减少,拟合误差会变大,此项起到去偏作用。 第二

21、项:随 0 升高而变小。由于话音高频端通常更具有随机谱的特征,因此,较多地判为清音区会使合成语音听起来自然。 第三项:是同语音当前帧能量 E0、平均能量 Eavg、最小能量 Emin、最大能量 Emax 有关的参数。 采用自适应方法,逐帧更新这些参数,以期获得更好的效果。,若用 E(0) 表示当前帧的参数, E(-1)表示前一帧的参数,相关量的定义为:且满足的约束条件:,求出上述几个能量之后,再确定函数: V/U 判决。 判决规则为:,5. 求各谐波幅度或包络 图11.9:频谱幅度估计框图。 改进 MBE 语音编码器,每个分频带包含 3 个谐波。谐波结构见图11.8。 对于第 k 个频带,其频

22、带范围为 a3k-2 b3k,需要确定 3 个频谱幅度A3k-2、A3k-1、A3k。,浊音带时, 按下式计算:如果数码率足够高,也可以直接传送 Am(0)。 清音带时, Am 按下式计算:对于最高分频带 K,其频带范围是 a3k-2bM,包含 M-3k+3 个谱幅度。令直流分量 A0=0。,改进 MBE 模型的全部参数为:基音周期 T0,各带的 V/U 判决 Vk, (k=1,2,K),各谐波处的最佳幅度 Am, (m=1,2,M) 。 参数传送给解码器前,需量化、编码。 INMARSAT-M 语音编码器的比特率为 6.4 kbit/s,帧长 20 ms,每帧 128 bit,其中 45 b

23、it 留给信道编码用,余 83 bit 供量化模型参数用。 表11.2:比特分配表。(参数量化的方法从略),第11章 多带激励声码器 11.4 多带激励语音合成 两种合成方法:频域合成法、时域合成法。 频域合成法:重建语音谱,求 Fourier 反变换得时域序列。相当于分析过程的逆过程。特点:比较直接,但不能保证合成语音基音周期的平滑变化。 时域合成法:利用插值实现帧间基音周期的平滑过渡, 可使合成语音更自然。因此,实际的 MBE 算法都采用这种方法。 下面介绍时域合成法。 图11.10:改进 MBE 语音合成框图。浊音成分与清音成分分开合成,再相加形成完整的合成语音。,11.4.1 清音成分

24、的合成 清音成分的合成用白噪声激励。 初始值为 u(-105) = 3147。按下式产生一个白噪声序列 u(n): 对相继的合成语音帧,u(n) 移动 20 ms(160 样点),对 u(n) 加窗,合成窗 wx(n) 长:209 样点。因此,在相继合成语音帧之间,噪声序列重叠 49 样点。对加窗后的 u(n) 进行 256 点的 DFT,得:,再根据谐波频带 m 是浊音区(Vk=1)或清音区(Vk=0),再对 Uw( l ) 进行修正得Uwc( l ) :式中,am, bm 定义见前面;Am(0) 当前帧的 Am 值。m 伸缩系数,是合成窗 wx(n) 与基音精细估计窗 wR(n) 的函数,

25、 修正效果相当于用一组带通滤波器滤除浊音带的信号。,Uwc( l ) 中很低及很高的频率成分都置0,即:对得到的频域各点 Uwc( l ),依下式计算其 IDFT:为平滑合成语音,需与前一帧的清音序列作叠接处理。设本帧和前一帧的清音序列分别用 表示,则当前合成语音的清音部分 xU(n) 由下式计算: 式中,N 帧长,N=160;且 时, 。,11.4.2 浊音成分的合成 方法:先计算各谐波分量 xV,m(n),再叠加,得总的浊音,即: 式中 M(0), M(-1) 当前帧、前一帧所含谐波的个数, 第 m 次谐波的谱幅度 Am 按以下规则确定:并且式中 Am(0), Am(-1) 当前帧、前一帧

26、第 m 次谐波的谱幅度。下面算式中的参数 x(0), x(-1) 表示当前帧、前一帧的参数 x。,分 5 种不同的前后帧组合情况,进行合成语音的平滑过渡: 当前帧/前一帧的第 m 次谐波皆为清音: 清音分量按上面的合成方法合成;浊音分量置 0。 当前帧第 m 次谐波为清音,前一帧为浊音: 浊/清过渡,该部分的浊音分量为: 当前帧第 m 次谐波为浊音,前一帧为清音: 清/浊过渡,该部分的浊音分量为: 当前帧/前一帧的第 m 次谐波皆为浊音,且 该部分的浊音分量为:,计算中,时, 当前帧/前一帧的第 m 次谐波皆为浊音,且 该部分的浊音分量为:式中 am(n) 幅度函数;m(n) 相位函数;,其中,相位参数 按以下算式每帧进行更新:式中 当前帧中清音谱幅度的数目; 随机数,在区间 -, ) 中均匀分布,; 当前帧的噪声序列。,11.4.3 重建语音的产生 分别求出:清音部分和浊音部分后,最后的合成语音为: MBE 声码器是从改善激励源出发的一种语音压缩编码方案。是建立在频谱分析基础上的又一种激励模式。 低码率语音编码中,合成音质较传统声码器好得多,且有较好的自然度和容忍环境噪声的能力。,谢 谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报