收藏 分享(赏)

改进的基于人耳掩蔽效应谱减语音增强算法.doc

上传人:tkhy51908 文档编号:7726218 上传时间:2019-05-24 格式:DOC 页数:9 大小:3.80MB
下载 相关 举报
改进的基于人耳掩蔽效应谱减语音增强算法.doc_第1页
第1页 / 共9页
改进的基于人耳掩蔽效应谱减语音增强算法.doc_第2页
第2页 / 共9页
改进的基于人耳掩蔽效应谱减语音增强算法.doc_第3页
第3页 / 共9页
改进的基于人耳掩蔽效应谱减语音增强算法.doc_第4页
第4页 / 共9页
改进的基于人耳掩蔽效应谱减语音增强算法.doc_第5页
第5页 / 共9页
点击查看更多>>
资源描述

1、2008 年 9 月 Journal on Communications September 2008第 29 卷第 9 期 通 信 学 报 Vol.29 No.9改进的基于人耳掩蔽效应谱减语音增强算法赵晓群, 黄小珊(同济大学 电子与信息工程学院,上海 200092)摘 要:提出一种谱估计中的平滑系数自适应变化的新算法,该算法利用人耳掩蔽特性改进语音最小均方误差的对数谱估计增益和无语音概率(SAP)参数,并且利用改进后的 SAP 参数自适应地调节平滑系数,以求随着不同噪声环境的变化在去噪度、残留音乐噪声和语音畸变度之间自适应地折中。实验表明新算法相对于其他谱减法在相同的去噪度下,语音畸变度最

2、小且几乎察觉不到音乐噪声。特别是在低信噪比的环境下,相对其他谱减法的优势更显著。关键词:无语音概率;平滑系数;人耳掩蔽效应;语音畸变中图分类号:TN912 文献标识码:B 文章编号:1000-436X(2008)09-0073-08Improved speech enhancement based on spectral subtraction and auditory masking effectZHAO Xiao-qun, HUANG Xiao-shan(College of Electronics smoothing parameters; auditory masking effect

3、s; speech distortion1 引言谱 减 法 以 其 算 法 简 单 和 普 适 性 强 在 语 音 增 强 中得 到 广 泛 应 用 。 近 年 来 , 为 进 一 步 提 高 谱 减 法 的 性能 , 提 出 了 一 系 列 改 进 算 法 110, 且 取 得 了 很 好 的去 噪 效 果 。 目 前 的 研 究 工 作 主 要 集 中 在 如 何 更 准 确且 实 时 地 估 计 噪 声 谱 、 先 验 信 噪 比 以 及 灵 活 使 用 无语 音 概 率 的 “模 糊 思 想 ”。 语 音 和 噪 声 的 非 平 稳 性会 造 成 谱 估 计 的 不 完 全 准 确 ,

4、 所 产 生 的 音 乐 噪 声 严重 影 响 了 语 音 的 可 懂 度 。 大 多 语 音 增 强 算 法 在 追 求减 小 噪 声 的 同 时 , 也 导 致 较 严 重 的 语 音 畸 变 度 , 尽管 噪 声 去 除 的 效 果 很 有 效 , 但 语 音 畸 变 度 很 大 。所谓语音畸变度也就是引起语音的失真度,实验表明,由于人耳对语音的感知是通过语音信收稿日期:2006-10-11;修回日期:2008-06-11基金项目:上海市自然科学基金资助项目(04ZR14138)Foundation Item: The Natural Science Foundation of Shan

5、ghai(04ZR14138)74 通 信 学 报 第 29 卷号中各频谱分量的幅度获取的,语音的失真比对一般的宽带噪声更敏感。对各分量的相位则不敏感,所以语音的失真主要研究的是幅度失真。因此,为达到满意的去噪效果,增强算法在去噪度、语音畸变度和残留音乐噪声之间的均衡,一直是谱减法的关键问题。各种改进的谱减算法 110对减少音乐噪声起到了一定的作用,但如何同时减小语音的畸变度,还没系统讨论过。在各种改进算法中,平滑系数的选取和/或修正的方法对残留噪声、残留的音乐噪声及语音畸变度都有很大的影响。无论是噪声谱估计 6,7,11还是语音谱估计 4,5,810,12,13,其平滑系数均是根据实验取自固

6、定的经验值。然而,实验表明先验信噪比估计中平滑系数 和噪声谱估计中平滑系数较小时,语音畸变和噪声残留都较少,但残留D的音乐噪声显著;反之, 和 大时,语音畸变D和噪声残留较多,但残留的音乐噪声较少。所以,对于纯噪声帧和带噪语音帧的平滑系数取值应该是不一样的,较好的解决办法是随语音出现的状态而时变,带噪语音帧中平滑系数取较小值,纯噪声帧中平滑系数取较大值。至于平滑系数时变的依据,可根据每帧功率变化的大小来确定 14。但该方法突变性大,平滑系数取值不够平滑,会残留大量原始噪声;也可基于人耳掩蔽阈值来确定 15,该算法直接采用掩蔽阈值作平滑系数,但掩蔽阈值与平滑系数相关性不大,不能较准确地跟踪带噪语

7、音状态的时变。本文的新算法采用经人耳掩蔽特性改进后的SAP 参数来自适应地调节平滑系数。人耳掩蔽效应最初应用于低速率语音编码,近年来也应用于语音增强 15,16。根据人耳掩蔽效应将带噪语音状态继续分化为噪声被掩蔽的状态和噪声未被掩蔽的状态。根据新划分的不同状态来改进 SAP 参数估计,再利用改进的 SAP 参数自适应地调节语音平滑系数,使得 在 噪 声 能 量 小 于 语 音 掩 蔽 阈 值 的被 掩 蔽 状 态 , 保 留 原 带 噪 语 音 , 尽 量 减 小 语 音 畸变 ; 而 在 噪 声 能 量 大 于 语 音 掩 蔽 阈 值 的 未 被 掩 蔽的 状 态 , 采 用 谱 减 法 进

8、 行 去 噪 处 理 。 同 时 根 据I.Cohen 新 提 出 的 语 音 和 噪 声 统 计 模 型 10, 利 用人 耳 掩 蔽 特 性 对 卜 凡 亮 等 人 17提出的在噪声被掩蔽概率下的语音谱估计增益进行修正,这样更符合语音和噪声的特性,可以在去噪度、残留“音乐噪声”和语音畸变度之间取得很好的均衡。实验表明,该算法与其他谱减法相比,能取得更小的语音畸变,而且能将残留噪声和音 乐 噪 声 控 制在 人 耳 掩 蔽 阈 值 下 , 使 人 的 主 观 感 觉 得 到 了 很 大的 改 善 。 由 于 能 在 去 噪 度 、 残 留 “音 乐 噪 声 ”和语 音 畸 变 度 之 间 自

9、 适 应 地 折 中 , 因 此 , 在 低 信 噪比 环 境 下 , 比 其 他 谱 减 算 法 10,14,15优 势 更 明 显 。2 噪 声 被 语 音 掩 蔽 的 概 率 下 的 谱 估 计 及 改 进设 表示纯净语音信号。当 受到加性)(nx)(nx噪声 干扰后产生带噪语音 ,则有dy。由于语音信号是短时平稳的,y因此,可用短时傅立叶变换进行分析。设 、 、 分别表示 、 、),(klX),(klD),(klY()xnd的第 帧第 个频谱分量,且 ,yn ),(j),(),(ekllklAX;再设 和),(j),(),(ekllklRY(,) 2,E|lkXl分别表示 和 的第 帧

10、第(,) 2,E|lkDlnxdl个频谱分量的方差。本文使用的语音和噪声的统计模型是由I.Cohen 提出的改进模型 9:1) 噪声 的任一帧、任一频谱分量 是)(nd),(klD统计独立的零均值复高斯随机变量,其实部和虚部相互独立,且服从同一分布;2) 在 范围内,语音 的任一帧、任一,)(nx频谱分量 的相位服从同一均匀分布;),(klX3) 语音的第 个的幅度谱序列k是一个随机过程,且不同谱分量的随,)2(),1(kA机过程相互独立,即 与,)2(),1(kA,)2(),1(kA是相互独立的;4) 计算 时,假定 是一个零均值的),(klX),(kl复高斯随机变量,且它的实部和虚部服从同

11、一分布的;5) 方差序列 是一个随机过程,,)2()1(kkX对特定的 和 , 与语音谱幅度序列l),(l密切相关,而在求 时,假定,)2(),1(kA),(kl与 , 相互独立。),(lXll2.1 噪声被语音掩蔽的概率无语音概率(SAP)的“模糊思想”是把语音的第 帧第 个频谱分量的状态分为无语音状态lk和有语音状态 2 种。在上面的语音模型),(0H),(1klH第 9 期 赵晓群等:改进的基于人耳掩蔽效应谱减语音增强算法 75基础上,将有语音状态 继续分为噪声未被语),(1klH音掩蔽的状态 和噪声被语音掩蔽的状态 。),(01kl ),(1klH各状态下带噪语音分别为 (,)0(,)

12、(,)1,0,(,)1(),:lklklkllklkllklklklkllllHYDXDT(1)其中,设 是纯净语音第 帧第 个频谱分量的),(klT掩蔽阈值。由于复高斯变量的幅度服从 Rayleigh 分布,则 的概率密度函数可表示为),(klD(2),(),( 2,),(exp2klkl DDklf 噪声的功率谱 概率密度函数可表示为),(lP(3),(),( ,),(exp1klkl DPDklf 本文采用 Johnston 提出的算法计算掩蔽阈值16,该算法的计算量小于基于线性频率的估),(klT计方法,故得到了广泛的应用。应当指出,由于目前对人耳听觉了解有限,所以对于掩蔽阈值的计算仍

13、有改进的余地。),(kl在语音出现的条件下,且 ,即噪,()(,)PlklkDT声被语音掩蔽的状态 的概率 为),(1klH,thp(,) (,)(,),th,()1 ,(),()|dexlk lklkllk lPlkPlkT Dpf (4)在语音出现的条件下,且 ,即噪),(),(kllPT声未被语音掩蔽的状态 的概率 为),(01klH,thp(5),(,),(),(),(th ex|1 klDkllklPp2.2 基于语音信号统计模型和人耳掩蔽特性的谱估计最小均方误差的对数谱估计(MMSE-LS)更符合人耳的主观听觉特性。因此,相对于维纳滤波法和最小均方误差的短时幅度谱估计法,MMSE-

14、LS 的性能最好 12,13,18。MMSE-LS 算法简称 LS-SAP 法,其谱增益为 ,如 13LSMEG(6)(,)(,)MSEL,(),1expd12lktlklk其中, 。 和 分/),(),(,),( llll),(l),(kl别为带噪语音的先验信噪比和后验信噪比(7),(),(),(/2,),(, kllklDklXlR在模型中,已假设语音和噪声信号是统计不相关的复高斯随机过程,各帧的频谱分量是复高斯随机变量。因此,在不同状态下的条件概率密度函数为(8)(,) (,)2,(,)(,)0|1| explklkllklkDDYPYH(,)(,) (,)(,)2,(,)(,)1 |l

15、klklklkllklkXDXD(9)根据有语音 和无语音 2 种状态,),(1klH),(0klSAP 法 5,6,12将谱估计的增益分为 和 ,LSMEGmin将后验概率分为有语音概率 和无语音概率),(klp。然而,在状态 条件下,子状态),(1klp1和 的带噪语音幅度谱概率密度函数0,),(1l和 是不同|),(0,),(klklHYP),|(,(1)(), kllklHYP的,本文将对此进行改进。结合前面噪声被语音掩蔽的概率和 MMSE-LS 谱估计,新算法在 SAP参数和谱增益估计时将语音出现状态 按照人),(1kl耳掩蔽特性继续分化为噪声被掩蔽的状态 和),(l噪声未被掩蔽的状

16、态 ,使谱估计更符合实际),(01klH语音和噪声模型,能够在去噪度和语音畸变度之间更好地均衡。1) 有语音且噪声被掩蔽的状态 ),(1kl在 状态下,噪声被语音掩蔽。人耳感觉),(1kl不到噪声的存在,无须对带噪语音进行处理,因此,没有语音畸变度。此状态的后验谱增益为 1,即76 通 信 学 报 第 29 卷(10)1,0()(,)expElnlklAR其中, 是在 状态下对语),(01klA,),(1),(kllklHY音的幅度谱的估计。设后验语音出现,且被掩蔽的概率为 p1,(l,k),无语音状态的先验概率为 。根据贝(,)0(,)lklkPq叶斯定理,并结合式(4),有 (,)(,)1

17、,()1(,), (,)(,)(,)(,)1,11(,)(,)(,)1,th,()(,)(,)0011| | |lkllklklkllkl llkl lklklkpPHYHPppqYYP,)l(11)其中(12)(,)(,)(,)(,)(,)(,)12, ,)|exp,minlklklklkllk XDlDlXPHYT2) 有语音且噪声未被掩蔽的状态 ),(01lH人耳能感觉到噪声的存在,采用谱减法去除噪声。此状态的后验谱增益为(13)(,)1,()MSEL,(),(,),explnd2lklklkl tlkAGRe 其中, 是在 状态下对语),(1klA,01)(),(kllHY音的幅度谱的

18、估计。设后验语音出现,且未被掩蔽的概率为 ,),(0klp此时,语音状态的先验概率为 ,,),(1lklqP且 为),(0klp(,)(,),10(,), (,)(,)(,) 1,01(,)(,)(,)1,0th,()(,),0,1| | |lkll lkll lklklklklklk lklklPHYYHppqPYP,1(14)其中(15)(,)(,)(,)(,)(,)(,)102, ,)1|exp,maxlklklklkllk XDlDlXPYHT由式(11)式(15)可得,语音出现的后验概率为|(),(),1kllYHP(16),(1),(0),(),(| klklkll pp3) 无语

19、音状态 ,0l在语音增强过程中,人耳对完全的无声状态并不感觉舒适。经验表明,在处理纯噪声部分,此状态的后验谱增益取一个固定经验值为(17)0,()min,expEllklAGR其中, 是在 状态下对语音的幅),(0klA)(0),(klHY度谱的估计。此状态下的后验无语音概率为 ),(1),(0),(),(1),(),(0| klklkllkll pPHP(18)通过上述 3 个状态的分析,本文提出新的改进的谱估计,其增益 定义为),(ADLSklG(19)(,)S,()expEnllkkR根据概率论, 可表示为(,)l(,) ElnlkA,(,)1,0()10(,)l |lkllklkPHY

20、(20)(,)(,),() (,),0,0(,) | l|lll llklkl考虑到式(11)、式(14) 和式(18),式(20)可写为(,) ElnlkA1,0(),()llklp(21),0,()0,()1,()llllklklk将式(21)代入式(19),注意到式(10)、式(11) 和式(17),经整理得(22),(0),(1),(0 ),LSME1min),(ADLS klkllplpkl GG第 9 期 赵晓群等:改进的基于人耳掩蔽效应谱减语音增强算法 773 基于人耳掩蔽效应改进的 SAP 参数的平滑系数自适应变化去噪度和语音畸变度、残留“音乐噪声”度不可能同时优化,因此,先验

21、信噪比 和噪声谱的估计分别使用了平滑系数 和 。),(klD),(kl(,)lkD平滑系数的取值对去噪度和语音畸变度影响很大。例如,在估计 时平滑系数 是在跟踪语音变化的准确度和 的平滑度之间权衡,即在语音畸变度和残留音乐噪声度之间折中; 的标准方差( 的平滑度影响音乐噪声的大小)随 增大而增大,1即随着 的增大, 越不平滑。又如,在 MMSE谱估计中,当语音出现时,增益从 迅速增大为minG,变化的延迟也随 的增大而增大,),(LSMEklG而且延迟越大,过渡段的语音畸变越大。上述结论可参见图 1。图 1 同一段带噪语音在不同平滑系数下的 的对比,带 噪 语 音 的 变 化 程 度 称 为

22、“平 稳 度 ”, 平 滑 系 数依 据 “平 稳 度 ”自 适 应 变 化 。 因 此 , 选 取 一 个 可 靠的 平 稳 度 参 数 是 至 关 重 要 的 。 Casual 和 Noncasual 法之所以比 LS-SAP 法 好,主要就是它们考虑97 13相邻帧的信息,更符合语音信号的慢时变特性;另外,LS-SAP 法中平滑系数是固定值,Casual 和Noncasual 法中平滑系数 ,2141)(1lDll Al相当于平滑系数时变的 LS-SAP 法,它与各帧的先验信噪比成反比,这正符合了平滑系数的时变思想,即用先验信噪比作为平稳度参数。但该算法只对谱增益中的平滑系数进行了时变,

23、并未对噪声谱估计中平滑系数进行处理。T.F.Quatieri、R.A.Baxter (简称 TR 法)采用各帧之间的频谱差作为平稳度来反应语音的变化 。14实验表明,用于平滑系数的自适应变化相对于固定的参数算法所得到的去噪语音的畸变度和“音乐噪声”都要小;尽管去噪度稍微弱些,但总体来说,人耳的主观感觉要好,特别是在语音开始和结尾处的过渡段保留较好,提高了可懂度。但由于带噪语音具有突变的特性,采用 TR 法进行平滑系数的自适应变化会有一些突变的部分,使得平滑系数的变化不够平滑。此外,Virag 直接利用人耳的掩蔽阈值针对一般谱减法的系数进行了时变 ,取得较好的效果(后面简称 NV 法) ,但是1

24、5NV 法的平滑系数的变化不是很符合带噪语音的状态变化,只是简单地将平滑系数与人耳的掩蔽阈值结合考虑。下面本文依据 2.2 节提出的 3 个状态,对带噪语音在各种状态中的平滑系数变化进行分析。1) 无语音状态 ),(0klH后验语音出现的概率 小,则后验语音出),(lp现噪声被掩蔽的概率 和未被掩蔽的概率,1k也都很小。此时,需要很好地跟踪噪声的变),(0klp化,而无需跟踪语音,即减少语音谱估计中先验信噪比的方差,减少听觉感知的“音乐噪声” ,需取较小值, 取最大值 1。 和),(klD),(kl),(klD的更新为,l(23)min),1(),( 2),(),(),(),(),( klkl

25、 klDRklklll2) 有语音且噪声未被掩蔽的状态 ),(01klH后验语音出现概率 大,则后验语音出现),(klp噪声未被掩蔽的概率 较大,后验语音出现噪0声被掩蔽的概率 很小。既需要很好地跟踪噪),(1kl声的变化,同时也需要跟踪语音,噪声估计和先验信噪比都需要实时更新。在该状态需要在进行谱减法的同时,尽量减小语音畸变度,将残留噪声和“音乐噪声”抑制在掩蔽阈值之下。 和),(kl需要根据具体情况在),(klD范围内自适应变化。,max,inmaxinD和 的更新表示为),(kl),(kl78 通 信 学 报 第 29 卷(24) 0,1max)1(),(,),(),),( 2,(),(

26、),(),( klklklkl DDRllll 3) 有语音且噪声被掩蔽的状态 ,H后验语音出现概率 大,则后验语音出现),(klp噪声未被掩蔽的概率 很小,后验语音出现噪0声被掩蔽概率 较大。由于噪声被语音掩蔽时),(1kl人耳感知不到,故无须跟踪噪声谱和进行谱减处理,因此没有语音畸变。此时,仅需要跟踪语音,实时更新先验信噪比估计, 需取较小值,),(kl取 1。 和 的更新表示为),(klD),(kl),(klD(25) 0,1max)(),(,),1(),),(),(),( klklklklll 可见,噪声估计平滑系数 随着语音出现,),(klD且噪声被语音掩蔽的概率增大( 即掩蔽阈值的

27、增加)而增大;先验信噪比平滑系数 随着语音出现,(kl而减小。可见平滑系数的变化规律与语音出现概率及噪声被语音掩蔽的概率有密切联系。而且改进后的 SAP 参数是根据人耳掩蔽特性、信号模型,并利用 IMCRA 法 的 最 小 二 次 迭 代 法 求 出 的 , 结7合 了 相 邻 帧 信 息 , 能 准 确 地 反 映 出 语 音 各 个 状 态 的变 化 。 因 此 , 采 用 后 验 语 音 出 现 概 率, 作 为 先 验 信 噪 比 估 计 中 平),(),(),(1|klkllpYHP滑 系 数 的 平 稳 度 , 采 用 后 验 语 音 出 现 且 噪 声被 语 音 掩 蔽 概 率

28、为 噪 声 谱 估 计 中 平滑系数),(1kl的 平 稳 度 。 根 据 各 类 信 噪 比 的 环 境 下 的 实),(klD验 得 出 , 平 滑 系 数 上 阈 值 取,下阈值取 。将各概率值归98.0max25.0min整到范围 内,采用下面归整公式,axin(,) ,a,in1,()Barks2lk iDDDlif pN (26) (,)maxin(,)Barkin,cosilk lifl (27)其中, 是为了使平滑系数不产生剧烈突变所)(lf加的因果平滑滤波器; 是频带 里总的频谱iNari分量数。LS-AD 算法的流程图如图 2 所示。2008 年 9 月 Journal o

29、n Communications September 2008第 29 卷第 9 期 通 信 学 报 Vol.29 No.9图 2 LS-AD 算法流程4 实验结果及评价纯净语音取自标准语音库的一段男声(male):“从经济型轿车到越野型轿车,车市主题一年一变” 。噪声取自 Noisex 92 的白(white)噪声、坦克噪声(M109)、飞 机 驾 驶 仓 噪 声 (F16)。 将 它 们 合 成信 噪 比 为 的 带 噪 语 音 ( 16kHz 采 样 ,dB510512 点 分 帧 , 256 点 重 叠 ) 。 将 I.Cohen 的 Casual法 ( 因 为 Noncasual 法

30、 与 Casual 法 的 区 别 仅 在 某些 突 变 处 , 所 以 这 里 就 只 对 比 Casual 法 ) 、T.F.Quatieri 的 TR 法 、 Ephraim 的 LS-SAP 法 以及 本 文 提 出 的 LS-AD 法 进 行 比 较 , 并 从 主 观 和客 观 评 价 分 别 进 行 讨 论 。客观评价常用分段信噪比( )和 Itakura-segNRSaito 距离( )。公式如下ISd(28)1002seg )()(loLiMnnixixSNR(29) Ll NklNklXd1 2/1),(2/1),(ISlog其中, 和 分别是纯净语音和去噪后语音)(nx的

31、时域信号, 和 分别是 和 分帧),(klX),(kl )(nx并经短时傅立叶变换后的第 帧第 个频谱分量。由于 LS-AD 算法保留低于语音掩蔽阈值的噪声,这样尽管在主观感觉效果很好,但 上未segSNR能见有任何优势。因此,客观评价上只讨论 。Id图 3 比 较 了 各 种 噪 声 环 境 下 的 4 种 算 法 , 可 见Casual 法 、 TR 法 、 LS-AD 法 明 显 优 于 最 原 始 的 LS-SAP 法 。 仔 细 观 察 发 现 LS-AD 法 去 噪 后 的 语 音 在 保留 了 许 多 低 于 掩 蔽 噪 声 阈 值 的 噪 声 情 况 下 , 其 仍ISd能 与

32、 Casual 法 、 TR 法 的 值 很 相 近 ; 且 随 着 信 噪ISd比 的 降 低 , 其 值 越 相 近 , 即 效 果 越 好 。 这 充 分 说 明LS-AD 处 理 后 的 语 音 最 为 逼 近 原 始 语 音 , 即 语 音 失真 度 最 小 。 通 过 图 4 的 语 谱 图 更 能 充 分 说 明 这 点 。(a) 坦克 M109 环境下第 9 期 赵晓群等:改进的基于人耳掩蔽效应谱减语音增强算法 79(b) 白噪声环境下(c) F16 环境下图 3 带噪语音处理后的 IS 距离比较从图 4 看出,在语音集中的 01 000Hz 频段内,LS-AD 法的语音保留最

33、多,特别语音的起始和结尾处,这一部分较多为清音,对语音的可懂度影响较大。虽然可以看出 LS-AD 残留了很多的噪声,但是这些噪声是基于人耳掩蔽阈值保留下来的,因此,对语音可懂度的影响较小,而且几乎没有孤立的频点存在于掩蔽阈值外,即感觉不到“音乐噪声” ,这些通过主观听觉感受都能证明。所以 LS-AD 法相 对 于 Casual 法 、 TR 法 、 LS-SAP法 语 音 畸 变 度时间/s(a) M109 0dB LS-AD 法增强后时间/s(b) M109 0 dB Casual 法增强后时间/s(c) M109 -5 dB LS-AD 法增强后时间/s(d) M109 -5 dB Cas

34、ual 法增强后时间/s(e) 白噪声 0 dB LS-AD 法增强后时间/s(f) 白噪声 0 dB TR 法增强后时间/s(g) 白噪声 -5 dB LS-AD 法增强后时间/s(h) 白噪声 -5 dB TR 法增强后图 4 带噪语音经各算法增强后的语谱最 小 , 而且通过主观感觉不到残留“音乐噪声”和噪声,在这三者之间能找到很好的折中。运算量上,LS-AD 法相对于 LS-SAP 法就多一个掩蔽阈值计算,而且 LS-AD 的先验信噪比估计不用Casual 和 Noncasual 法中的迭代运算,运算量和NV 法、Casual 法相当。LS-AD 法与 NV 法之间的比较通过主观听觉能明

35、显地察觉出 LS-AD 法优于NV 法,原因有 2 个:LS-AD 法采用的是 Ephraim提出的 MMSE-LS 谱估计;LS-AD 中平滑系数的自适应变化不仅仅只基于人耳掩蔽阈值,同时也考虑了无语音概率参数(SAP) ,更符合带噪语音信号的模型。80 通 信 学 报 第 29 卷5 结束语本 文 考 虑 在 基 于 人 耳 掩 蔽 阈 值 和 语 音 出 现 概 率的 基 础 上 , 自 适 应 地 调 整 语 音 和 噪 声 谱 估 计 中 的 平滑 系 数 , 提 出 了 在 复 高 斯 语 音 信 号 模 型 下 基 于 人 耳掩 蔽 阈 值 的 谱 估 计 增 益 的 一 种 修

36、 正 形 式 。 实 验 表 明 ,本 文 的 LS-AD 算 法 优 于 I.Cohen 提 出 的 Casual 算 法、 N.Virag 提 出 的 算 法 以 及 卜 凡 亮 等 人 提 出10 15的 算 法 , 能 在 去 噪 度 、 语 音 畸 变 度 及 残 留 “音 乐17噪 声 ”度 之 间 做 出 很 好 的 折 中 , 这 是 因 为 算 法 首 先基 于 人 耳 掩 蔽 特 性 改 进 了 最 小 均 方 误 差 的 对 数 谱 估计 和 SAP 参 数 估 计 ; 其 次 , 利 用 改 进 后 的 SAP 参 数去 自 适 应 地 调 节 平 滑 系 数 。 无

37、论 是 从 噪 声 谱 估 计 还是 语 音 谱 估 计 上 来 看 , 该 算 法 更 能 实 时 地 自 适 应 地跟 踪 语 音 的 变 化 , 从 而 使 得 谱 减 法 中 的 先 验 信 噪 比 、谱 增 益 以 及 噪 声 谱 估 计 更 符 合 假 设 的 语 音 模 型 和 人耳 听 觉 特 性 。参考文献:1 MALAH D, COX V R, ACCARDI J A. Tracking speech-presence uncertainty to improve speech enhancement in nonstationary noise environmentsA

38、. Proc Int Conf Acoustics, Speech, Signal ProcessingC. 1999.789-792.2 KIM N S, CHANG J H. Spectral enhancement based on global soft decisionJ. IEEE Signal Processing Letters, 2000, 7(5): 108-110.3 CHOI M S, KANG H G. An improved estimation of a priori speech absence probability for speech enhancemen

39、t: in perspective of speech absence probabilityA. IEEE International Conference on ICASSPC. 2005.1117-1120.4 COHEN I. On speech enhancement under signal presence uncertaintyA. Proc Int Conf Acoustics, Speech and Signal ProcessingC. 2001.167-170.5 COHEN I. Optimal speech enhancement under signal pres

40、ence uncertainty using log-spectral amplitude estimatorJ. IEEE Signal Processing Letters, 2002, 9(4): 113-116.6 COHEN I, BERDUGO B. Noise estimation by minima controlled recursive averaging for robust speech enhancementJ. IEEE Signal Processing Letters, 2002, 9(1): 12-15.7 COHEN I. Noise spectrum es

41、timation in adverse environments: improved minima controlled recursive averagingJ. IEEE Transactions on Speech and Audio Processing, 2003, 11(5):466-475.8 COHEN I. On the decision-directed approach of ephraim and malahA. IEEE International Conference on ICASSPC. 2004.293-296.9 COHEN I. Speech enhanc

42、ement using a noncasual a priori SNR estimatorJ. IEEE Signal Processing Letters, 2004, 11(9): 725-728.10 COHEN I. Relaxed statistical model for speech enhancement and a priori SNR estimationJ. IEEE Transactions on Speech and Audio Processing, 2005,13(5): 870-881.11 MARTIN R. Spectral subtraction bas

43、ed on minimum statisticsA. Proc Eur Signal Processing ConfC. 1994. 1182-1185.12 EPHRAIM Y, MALAH D. Speech enhancement using a minimum mean square error short-time spectral amplitude estimatorJ. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1984, 32(6): 1109-1121.13 EPHRAIM Y, MALAH

44、 D. Speech enhancement using a minimum mean square error log-spectral amplitude estimatorJ. Transactions on Acoustics, Speech, and Signal Processing, 1985, 33(2).443-445.14 QUATIERI T F, BAXTER R A. Noise reduction based on spectral changeA. IEEE ASSP Workshop on Applications of Signal Processing to

45、 Audio and AcousticsC. 1997.19-22.15 VIRAG N. Signal channel speech enhancement based on masking properties of the human auditory systemJ. IEEE Transactions on Speech and Audio Processing, 1999, 7(2): 126-137.16 JOHNSTOM J D. Transform coding of audio signals using perceptual noise criteriaJ. IEEE J

46、 Selected Areas Communication, 1988,6(2):314-323.17 卜凡亮,王为民,戴启军等. 基于噪声被掩蔽概率的优化语音增强方法J. 电子与信息学报, 2005, 27(5): 753-756.PU F L, WANG W M, DAI Q J, et al. Optimizing speech enhancement based on noise marked probabilityJ. Journal of Electronics & Information Technology, 2005, 27(5): 753-756.18 PORTER J E, BOLL F S. Optimal estimators for spectral restoration speech of noisy speechA. Proc IEEE Transactions Conf Acoustics, Speech, and Signal ProcessingC. 1984.A2.1-A.2.4.作者简介:黄小珊(1982-),女,重庆人,同济大学硕士生,主要研究方向为低信噪比下语音增强。赵晓群(1962-),男,黑龙江齐齐哈尔人,博士,同济大学教授、博士生导师,主要研究方向为数字语音信号处理、最佳信号设计理论、无线通信技术等。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 中等教育 > 教学研究

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报