1、1实时自适应降噪摘要:Adaptive Noise Reduction for Real-time ApplicationsAbstract:一、引言1.1 课题研究的背景及意义随着人类社会的不断发展,信息交流最自然、最有效、最灵活而又最为广泛使用的的途径就是语音,然而噪声无处不在、无时不有,语音通信质量越来越受到人们的关注。现在的识别系统、通信系统通常在无噪声环境下可以稳定可靠的工作,然而当噪声存在时,系统功能变得不稳定甚至不能正常工作,这就说明研究一种高效的降噪算法显得十分必要。在通信及其它领域中,噪声消除是科技飞速发展过程中面临的难题。目前,语音增强技术是解决语音噪声污染的一种有效途径,
2、并且该技术己经在很多领域中得到了广泛的应用,如语音处理系统、通信、多媒体技术、数字化家电等领域。语音增强的主要目的是减少语音信号中的噪声,使得到的语音信号尽可能接近纯净语音信号。然而实际中的噪声种类繁多、特性不同且大多都是随机产生的,因此完全彻底的消除语音中的噪声是不可能的,所以实际中语音增强的目标要根据语音处理系统的具体要求而定,一般是使接听者尽量减少疲劳感、改善语音质量和提高语音可懂度。1.2 语音增强研究概况目前,语音增强技术的研究与实际环境下的语音信号处理系统的开发,已经成为国内外的语音信号处理语音领域的重要课题。语音增强技术的研究要追溯于二十世纪中期,那时候解决噪声的目标是实现噪声和
3、语音的自动分离,尽管人们很早就有这种愿望,但由于技术的难度,这方面的进展很小 2。近年来,随着数字信号处理理论的不断成熟,语音增强技术已经发展成为语音信号处理领域的一个重要分支。从 70 年代开始,人们对语音增强的研究越来越重视,并且取得了一些基础性成果,各种语音增强算法不断涌现,如维纳滤波语音增强算法、谱相减法、软判决噪声抑制法、基于短时最小均方差的谱幅度估计法等相继被提出,随后几年中,卡尔曼滤波也被引入到语音增强中 3。在众多语音增强方法中,由于谱相减法的算法简单并且易于实现等优点,得到了人们的特别青睐,在研究中也得到了更大的关注。谱减法的缺点是处理后的语音中往往残留着较多的剩余噪声,给人
4、的听觉带来了一定程度的疲劳感。为了减少增强语音中的剩余噪声,各种改进的算法被提出,如 Berouti 对传统的谱减法进行了改进 4,在谱减法中增加了调整噪声功率谱大小的系数,提高了算法的灵活性,但是这种方法的系数是由经验确定的,适应性较差。随后,P.Lockwood 和 J.Boudy 提出了非线性谱减法 5,它的原理是通过输入带噪语音信噪比自适应调整谱减参数。然而评价一个语音质量的好坏并不能仅仅依靠信噪比来确定,它还受语音的可懂度和清晰度等多方面的因素影响。于是,99 年,人们将人耳的听觉掩蔽特性应与传统的语音增强方法相结合,不但很好的解决了剩余噪声的问题,而且还提高了语音的质量。目前,国内
5、外许多学者针对残留噪声的问题仍在进行大量的研究,其中方法用的比较多的就是结合人耳的听觉掩蔽效应。除了上述的语音增强方法之外,近些年又不断涌现出新的语音增强方法,如基于信号子空间的增强算法、基于神经网络的语音增强方法、基于小波分解的语音增强方法和基于粒子滤波器的方法等等。这些方法也成为近几年国内外研究的热点。在国内,目前有很多科研院所、大学在做语音增强方面的研究,如浙江大学、湖南大学、四川大学、吉林大学及中国科研院声学研究所等 6。实际中,大多数的语音处理系统都是在实时方式下工作的,随着语音增强算法理论的不断趋于成熟以及可编程 DSP 芯片的出现,语音增强的实时实现成为可能,语音增强技术也会逐步
6、走向实用化 7。21.3 语音增强研究的发展方向语音增强技术已经成为语音信号处理领域中的重要分支。自 1970 年至今,人们提出的各种各样的语音增强方法已经成功地应用到如语音识别、语音编码等信号处理领域中。目前,由于语音增强方法的种类繁多,根据不同的标准,分类也就不同8。根据所用的麦克风数量的不同,语音增强算法可以分为单通道、多通道增强算法。单通道方法是一般常用的增强方法,它不受麦克风位置、信号源方向等因素影响,它是结合语音信号特征的一种针对性的算法,像谱减法、信号统计模型方法、听觉掩蔽算法、维纳滤波方法、信号子空间算法等都属于单通道增强方法。多通道语音增强算法是采用麦克风阵列来获取语音信号数
7、据的,它利用阵列信号的信号源方向、说话人位置等空间特性,结合语音信号与噪声的特征来实现语音增强的,像自适应波束形成算法、结合波束形成与后滤波算法及各种基于信号子空间、统计模型算法等都属于多通道语音增强算法。综合分析可知,语音增强算法大体分为两种情况:一类方法运算量较小,容易实时实现,但增强后的语音中往往会有残留的剩余噪声;另一类方法的增强效果虽好,但是运算量很大,不容易实时实现。寻找一种运算量小,容易实时实现且增强效果好的方法是目前国内外学者研究语音增强的发展方向。二、语音增强的基本原理和方法2.1、语音和噪声的特点2.1.1 语音特性语音是典型的非平稳随机信号,其特性随发音人的不同、情感和所
8、发语言内容的不同而变化9。人类语音频率的范围大约是 100 Hz8 kHz,通常情况下,女性声音比男性声音频率要高一些,而童声也要比成人声音的频率高。当然,声音的高频与低频是相对的。在语音处理中,我们通常把 1 kHz 以上的区域称为高频区域。语音信号的波形有些呈现出较明显的周期性,有些则不然。通常发音时伴随着声带振动的音具有明显的周期性波形。而不伴随声带振动的音则具有非周期性的波形。周期性的声音信号具有线状的离散频谱,而非周期信号可以用傅氏积分来表示,即非周期声音信号包含了一定频带内的所有频率分量,具有非离散的连续谱。具有线状谱的声音在听觉上有明显的音高感觉,称为有调声,它们具有乐音性,其音
9、高取决于频谱中最低频率分量的频率值,这个最低频率称为基频,其他较高频率分量的频率为基频的整数倍,称为谐波分量。浊音信号频谱具有明显的周期性,且主要由基音及其谐波频率组成,这种声学特性也称为共振峰特性,而且能量大部分集中在 1 kHz 以下的频段内。不同的音素基音及谐波频率不同。清音是由发音器官中某部分破裂气流形成,具有噪声性质,其频谱为连续频谱。连续谱的声音信号的波形不具有周期性,这种声音在听觉上不产生音高感,因此具有连续的非周期声音信号又可称为无调声,并且清音没有共振峰结构,能量相对浊音而言比较小,主要集中在 1 kHz 以上的高频区域。语音信号是由浊音和清音组成的,且从波形上看浊音占主要,
10、清音类似于白噪声,能量比较低。语音信号是非平稳随机信号,因此要描述它的特征,必须用总体瞬时平均来确定,实际应用中要达到这一点是非常困难的。在大多数情况下可以将这种非平稳的连续信号分割为若干段短的准平稳信号来处理,这就是所谓的时间窗,相当于对被测量的声音信号进行时间特性的加权处理。从每一个时间窗看去,每一段信号可以认为是平稳信号,即语音的短时平稳性,甚至可以认为是各态历经的平稳随机信号,用单个样本记录就能对信号的特征进行估算,使测量和分析方法得到简化。2.1.2 噪声特性从生理学观点上说,噪声是一种不愉快的声音,凡是使人烦躁的、讨厌的、不需要的声音都叫噪声。从这个角度上看,有时候美妙的音乐也会成
11、为噪声。在物理上,一般称有规律的振动产生的、具有周期性波形的声音为乐音;反之,由各种不同频率和声强的无规律的3杂乱组合而形成的声音,称为噪声。本文所讨论的噪声主要是物理上定义的噪声。噪声无处不在地存在于人们的现实生活中,如办公室或者家中的空调声、冰箱声、风扇声,工厂中的机器机械振动声、马达声及街道、广场等环境中喧闹的噪音等等。这些都说明实际的环境中噪声是无法避免的。由于噪声的来源不同,不同噪声的特性不同,所以噪声的分类也有所不同10。根据噪声对语音频谱的干扰方式,大致可以分为加性噪声和乘性噪声。加性噪声指的是噪声对语音的干扰可以表现为两者信号在时域进行相加。在实际环境中,背景噪声可以看作加性噪
12、声。乘性噪声是指噪声和语音在频谱上是相乘的关系,在时域则是卷积的关系,因此乘性噪声也称为卷积噪声。根据噪声统计特性随时间变化的程度,又可以将噪声分为平稳噪声、缓变噪声和冲激噪声。平稳噪声是指噪声的统计特性不随时间的变化而变化。日常生活中遇到的噪声大多是非平稳的,但对平稳噪声的研究却是重要的基础,典型的平稳噪声是白噪声。缓变噪声在实际场合中会经常的遇到,这种噪声的统计特性会随时间的变化而发生缓慢的变化。典型的缓变噪声有人群噪声(babble noise)。冲激噪声是指其特性会在短时间内突然发生剧变的噪声,因此这种噪声有着很大的随机性,并且相对于前两种噪声来说难于建模。典型的冲激噪声如机关枪噪声。
13、除此之外,噪声还可以根据信号特点来进行分类,可以分为稳态连续噪声、瞬态噪声、起伏较大的噪声、含有较突出的单频信号的噪声、宽带噪声和窄带噪声等。一般来说,环境噪声是由各种不同噪声混合而成的,在多数情况下可以认为是频带宽且均匀的噪声。噪声信号和语音信号类似,也是一种随机信号。2.2 带噪语音信号模型假定噪声是加性的,带噪语音模型如图所示图 1 带噪语音信号模型根据带噪语音信号模型可知(1)()=()+()式中, 是带噪语音信号, 是纯净语音信号, 是噪声信号。() () ()2.3 带噪语音信号的分帧加窗由于语音信号是短时平稳信号,故用分帧加窗的办法来处理信号。而在信号处理过程中,常用的三种窗是:
14、矩形窗、汉明窗和汉宁窗。这三种窗函数都具有低通的特性,矩形窗的主瓣宽度最小,旁瓣高度最高,能量泄漏最为严重。汉明窗和汉宁窗的基本结构一样,都是主瓣宽,旁瓣高度低,只是系数作了调整,具有更平滑的低通特性,从而可以进一步抑制频谱泄漏,再此我们选用汉明窗。2.4 几种语音增强算法2.4.1 谱减法幅度谱相减法是一种基本的经典语音增强方法。首先对式子(2-1)进行分帧加窗处理,并且做傅里叶变化将时域信号转换到频域中,如下式 (,)=(,)+(,) =1,2,=1,2,1其中, 为帧号, 为频率点, 为帧长。幅度谱相减的原理框图如下所示 4图 2.3 幅度谱相减原理框图如原理图所示,在估计出输入语音频谱和噪声频谱之后,可以直接用带噪语音的频谱减去噪声频谱,然后利用人耳对语音相位的不敏感特性20 ,直接插入带噪语音相位,就可以得到近似纯净的语音的频谱,最终达到消除噪声、实现语音增强的目的。根据上述原理可知,幅度谱相减估计器为(2)(,)=|(,) |(,) |(,)其中, 为带噪语音信号频谱,| 为估计的噪声信号频谱, 为带噪语音|(,)| (,)| (,)信号的相位。在实际中,通常采用非语音段噪声频谱的数学期望 来作为噪声频谱的估计【21】 ,这时上式可写为|(,)|(,)=|(,) |(,) |(,)