1、西安电子科技大学硕士学位论文麦克风阵列语音增强算法研究姓名:胡曙辉申请学位级别:硕士专业:通信与信息系统指导教师:陈健20090101摘要在视频会议、非手持式移动电话、助听器等系统中,语音信号通常不可避免地会受到噪声、混响乃至其他语音的干扰。这些干扰不仅影响语音的可懂度,同时也会导致语音处理系统的性能急剧恶化。因此,采取何种语音增强算法能更有效的从带噪语音中恢复尽可能纯净的语音,是一个亟待解决的课题。本文阐述并比较了几种常用的麦克风阵列语音增强算法。详细讨论了广义旁瓣抵消器结构麦克风阵列语音增强的算法,并仿真了该算法。广义旁瓣抵消器算法会因为目标信号的估计方向与实际到达方向失配而引起信号泄漏,
2、从而导致输出信号失真。针对这个缺点,本文研究了两种改进的基于广义旁瓣抵消器结构的麦克风阵列语音增强算法。第一种算法采用MUSIC(Multiple Si印a1 Cl邪sification)算法来估计目标期望信号的入射角度,降低了定位误差,提高了定位性能,但仍然不能完全消除定位误差引起的性能下降:第二种算法通过改进广义旁瓣抵消器结构中自适应算法,避免因声音到达方向失配带来的信号泄漏,增加反馈模块加快语音增强系统的收敛速度,并采用维纳滤波器使算法更有效地抑制非相干噪声。仿真测试结果表明,相对于传统的广义旁瓣相消器的麦克风阵列语音增强系统,采用改进的算法对语音到达方向失配有更好的强健性,并且具有更高
3、的输出信噪比。关键词:语音增强麦克风阵列 广义旁瓣抵消器信号泄漏 后置滤波A bstractIIl the speech co舢叭mication application such aus teleco哦rence,hands珩ee mobiletel印hone锄d he耐ng aids and so on,speeCh is usually inevitably be interfered by noise,reVerberation eVeIl other audio si髓aIsThese int刊臼ences w谢not only cause mede孕lation of Speech
4、 quality,but also Iead t0 a sha印deterioration perfonllance of thespeech processing systemConsequently it is becoming more urgent to be solved thatch00se which speech enhaJlcement a190ritms t0 get雒cleaIl aS possible speech舶mnoisy speechTIlis paper describes锄d compares seVeral C0mmonly used microphone
5、 arrayspeech enhanc锄ent a190ritllIIlsTheIl,a detailed aI】【alySis of the Generalized SidelobeCanceIler structure is百Venn t11e GeIleralized SideIobe Canceller stmcturethemi锄atch b酏weell the estimated and actual direction of arrival of me desired si鲷al willcause si印alleakage which resulting in Speech d
6、istoItionhl view of this shortcomin岛觚o impr0Ved algorithnls b嬲ed on Generalized Sidelobe CaIlceller are proposedTheMultiple Signal Cl嬲sj fication algorithm is introduced iIl the first ilnproved a190thm t0estimate the direction of a币Val of the desired si印al,wllich rcduces the position朗旧r锄d impr0Ves t
7、he position perfo唧ance,but it Still c跚t elim洫ate the de罩adationpe0珊锄ce caused by the position啪r completelySo,in the second inlpmvedalg耐thm,the ad印tiVe algoritof the inlproved G饥eralized Sidelobe CaIlcellergtmcture is changed to aVoid the si印al leal(age,a feedback module is in仃Dduced tOspeed up tlle
8、conVe略ence of the systems and a WieIler filter structure is adopted t0suppre豁the incohercnt noise more eff-ectivelyThe simulation results show that:compared with traditional Generalized Sidelobe CaIlcellert、o propos酣improvedaJgorjthnls achieVe be技er robustlless jn the presence of mismatch of directi
9、on of arrival,and have better output si舀laltonoise ratioKey words: Speech ehancement Microphone arrayGenerazed SideIobe Cancener Sign aI leakagePostnItering独创性(或创新性)声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果:也不包含为获得西安电子科技大学或其它教育机构的学位或研究成果;也不包含为获得西安电子科技大学
10、或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。本人签名!蔓目旦墨婆关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合学位论文研究课题再攥写
11、的文章一律署名单位为西安电子科技大学。(保密的论文在解密后遵守此规定)本学位论文属丁保密在一年解密后适用本授权书。本人签名:导师签名:同期塑12垒i旦!旦同期笙k:!第一章绪论第一章绪论11引言语音是人类信息传播和情感交流的重要载体,也是人类信息交流最重要、最有效,最方便的方式。在实际的语音通信中,语音总是不可避免地受到外界环境噪声的干扰,包括传输媒介引入的噪声、通信设备内部电噪声、乃至其它讲话者的干扰。这些干扰使麦克风接收到的语音信号并非纯净的原始语音信号,而是受噪声污染的带噪语音信号,导致许多语音处理系统性能急剧恶化。因此,为了从带噪语音信号中获得尽可能纯净的原始语音信号,就需要进行语音增
12、强。12语音增强的意义语音增强技术是语音信号处理的一个重要分支,它的主要目的是从带噪语音中提取出相对纯净的语音信号,提高语音信号的可懂度和清晰度,以提高听者的舒适程度、减轻听觉疲劳。它有着广泛的应用,例如车载系统、视频会议系统、非手持式移动电话、音控系统和助听器等,在解决语音噪声污染问题、改进语音通信质量和提高语音可懂度等方面发挥着越来越重要的作用【1J。同时人们也在不断努力研究新的语音增强方法,使得语音处理系统在实际环境中有更好的性能。传统语音增强算法包括谱减法、维纳滤波、基于听觉掩蔽的语音增强、基于语音模型的增强算法、以及神经网络、信号子空日J等增强算法IZJ。传统语音增强方法已经得到广泛
13、的应用,但也存在很多局限性,如在处理时仅利用了一维时间信号的时频信息,因此增强效果有限,且近年来发展比较缓慢,难有新的突破。麦克风阵列语音增强技术是将阵列信号处理与语音增强处理相结合,利用阵列信号的空间相位信息对语音进行增强的一一种技术。它融合了语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,这就使麦克风阵列成为智能通信系统中捕捉说话人语音、改善语音质量的重要手段。它可提供比传统语音增强算法更好的噪声抑制效果,并且对应用环境的适应能力更强。近年来,麦克风阵列语音增强方法逐渐成为语音增强的研究热点f3J-f201。2 麦克风阵列语音增强算法研究13
14、研究现状国外对于语音增强的研究起步远远早于国内,取得了丰硕的研究成果,提出了谱减法、卡尔曼滤波、自适应滤波方法和子空间方法等非常经典的语音增强方法【26】【27l【281。这些方法具有较好的噪声抑制效果,并以简单、易于实现的特点广泛应用于现有语音通信系统与消费电子系统中。基于麦克风阵列的研究和应用是语音信号处理的一个新领域。麦克风接收到的语音信号受到环境噪声和干扰的影响很大,严重影响了通话质量,一般的基于单麦克风的语音增强系统难以获得较好的增强效果。麦克风阵列由于利用了目标信号、噪声和干扰的空间信息,基于麦克风阵列的语音增强系统能提供更好的增强效果。近年来,很多国际著名的大学和研究机构,如卡内
15、基梅隆大学、贝尔实验室等,正致力于麦克风阵列的研究和产品开发。1985年Flanagan提出的延时一求和波束形成方法13J是一种较为经典的算法。1972年Frost提出了线性约束最小方差(LinearIy Constmined Minimum V撕卸ce,简称LCMV)自适应波束形成器【4J。在线性约束最小方差自适应波束形成器的基础上,1982年例伍ths和Jim提出一种修币的线性波束形成器,即广义旁瓣消除器【5l(Geralized SidelobeC卸celIer,简称GSC)。20012004年,Ga衄ot等人以经典的广义旁瓣消除器算法为基础,提出了一种基于有用信号非平稳性的声学转移函数
16、广义旁瓣消除器【6】同嘲。Buckley,Gri币tllS等人在广义旁瓣消除器的基础上提出若干种改进方法【91f181。1977年Allen提出将后置滤波用于语音增强【1 9】, 1988年Zelinski将其扩展到麦克风阵列中【zUJ,即对延时一求和波束形成的输出端进行后置滤波,1999年,Abhayapala和Ke曲edy等提出了一种自适应近场宽带波束形成方、法121】。1991年,W抽g和ltal(um提出一种基于逆滤波的麦克风阵列去混响方法【z21。1994年,Pe仃opulu和Subr锄aIli锄提出了基于倒谱域解卷积的去混响方法【23】,该方法在倒谱域重构房间冲激响应,进而重构语音
17、信号。Comon于1994年提出独立分量分析(ICA)【z引,从而开始了盲信号分离的研究。Saruwat撕提出基于联合独立分量分析与波束形成的盲信号分离算法【z5J,有效的解决了通用独立分量分析(ICA)算法的慢收敛性。我国一些企业、研究所和高校也作了大量的研究工作,但都爿刚刚起步。覃景繁和高鹰各自提出一种新的变J步长自适应滤波算法【29J【301。何成林等人将多通道维纳滤波器引入广义旁瓣相消器的非自适应支路,提出一种基于子带广义旁瓣相消器结构的语音增强系统p,该系统具有更快的收敛速度和更高的输出信噪比。殷福亮等人提出一种将延迟一求和波束形成技术和小波变换技术卡j结合的语音增强方法I翊。张贤达
18、,保铮,苏野平,何量,何振亚等学者在盲信号分离方面耿得了较多的成果【33】【矧【碉。第一章绪论14本文布局本文针对语音环境中存在的干扰和复杂的背景噪声(非平稳随机噪声、瞬时噪声、回声等)问题,在基于广义旁瓣抵消器(Generalized Sidelobe Canceller,简称GSC)结构的波束形成算法基础上,研究改进了两种自适应的麦克风阵列语音增强算法。第一种是带多信号分离(Multiple Si伊al C1aSsification,简称MUSIC)模块的改进GSC算法,融合了MUSIC算法模块与广义旁瓣抵消器结构,增加MUSIC算法来估计目标期望信号的入射角度,并将后置维纳滤波模块引入广
19、义旁瓣抵消器的非自适应支路,更有效地抑制相干噪声和非相干噪声。该算法降低了定位误差,提高了定位性能;第二种算法是带反馈滤波器的改进GSC算法,此算法结构包括广义旁瓣抵消器模块(GSC)、后置维纳滤波器模块和反馈滤波器模块。在GSC的自适应抵消器系数更新算法中加入抑制信号泄漏的因子,来避免因到达方向(Direction of加1rival,简称DOA)失配所造成的信号泄漏,增强了系统对于DOA的强健性,增加反馈模块来加快GSC的收敛速度,并且减少了系统稳定后的残余噪声量,并将后置维纳滤波模块引入广义旁瓣抵消器的非自适应支路,可以更有效地抑制相干噪声和非相干噪声。计算机仿真实验结果表明,相对于传统
20、广义旁瓣抵消器算法和带反馈模块的广义旁瓣抵消器算法(Decision FeedbackGSC,简称DFGSC)的麦克风阵列语音增强系统,这两种改进算法具有更高的输出信噪比、更快的收敛速度和更强健的性能,对于语音环境中的干扰和复杂背景噪声有较好的抑制效果。论文的具体章节安排如下:第一章阐述了语音增强算法研究的意义,简要分析了语音增强算法的研究现状及本文的主要内容安排。第二章详细讨论了麦克风阵列信号的系统模型和阵列的拓扑结构,探讨了麦克风阵列语音增强的基本算法,并对这些算法进行了比较。第三章详尽阐述了波束形成技术的基本原理;阐述了GSC算法的框架、工作原理,分析了陔算法所存在的缺陷;并简要叙述了现
21、有的两种改进算法。第四章详尽讨论了传统MUSIC算:法、麦克风阵列的MUSIC算法,并研究了一种带MUSlC模块的改进GSC算法,该算法降低了定位误差,提高了定位性能,最后仿真了改进算法的有效性。第五章详细讨论研究了带反馈滤波器的改进GSC算法。该算法小需要知道信号的先验知识,并允许一定的DoA火配,解决了因DOA失配所带柬的信号对消问题,最后给出算法的计算机仿真。 第六章概要总结本文的j三要研究内容及取得的成果,并对需崾进一步研究的问题进行了讨论。第二章麦克风阵列语音处理模型及算法简介第二章麦克风阵列语音处理模型及算法简介上一章对语音增强的意义和研究现状进行了大致的讨论,为了进一步深入的研究
22、麦克风阵列语音增强算法,还有必要对阵列处理模型、麦克风阵列的信号模型和噪声特性进行详细的讨论。最后,将阐述几种常用的麦克风阵列语音增强算法,并作简要比较。21阵列信号模型211传统的阵列信号处理模型传统的阵列信号处理口6】中主要处理窄带信号,其中心频率为兀。并且,传统模型假设声源位于阵列的远场范围内,即声源可以认为是点声源,各阵元接收的信号之白J没有幅度差,只存在相位差。最常用的均匀直线阵列的模型如图21所示。J、JQJ4s图21传统均匀线阵ULA模璎图21中,M表示阼元个数,d表示村l邻阵元的IuJ距,s表示目标信号,B表示目标信号的到达角度,g 2 1,2Q为Q个互小相关的窄带干扰源,q。
23、为对应干扰源的到达角度。阵列接收的信号矢b为x=As+n (2一1)6 麦克风阵夕IJ语音增强算法研究式(21)为阵列的传输方程,其中,A=【a,a,a屯,aJQ】CM。Q+1为阵列的传输矩阵;a,C肌1,a,C肌1分别表示目标信号和干扰信号的方向矢量;sC口+1。10为信号矢量;nC肌为阵列接收的噪声矢量。式(21)中参数的具体形式为:A=a,a,a如,】l l I le心 e一脚 ej物 e。jej2_ ej21 ej2 ej2 ej(M_I)匕 ej(M-1)匕 ej(M-1) e。jM1)(2-2)s=b,以,如1r,n=k:,一M r式(22)中甲,分别表示相邻阵元间接收信号的相位差
24、,g=1,2,Q,他们和信号的频率厂、到达角度秒、阵元间距d等因素有关系, 也:螋:掣(23)=等等=等等一啦,Q p4,式(23)和式(24)中的名为信号中心频率所对应的波长,c为信号传播速度,对于电磁波,c=3108米秒,对于声波,c=340米秒。在此基础上,对阵列接收的信号进行加权完成波束形成,得到输出信号y=wx (25)式中,w=【w,w2r为权向量。212麦克JxL阵列信号模型麦克风阵列信号模型是【jI传统的阵列信号处理模型扩展而来,目前常用的麦克风信号产生模犁有理想模型和实际模型两种【37】1381,分别如图22和图23所示。(1)理想模型通常情况卜,可以假设声源信号和环境噪声是
25、不相关的,多0考虑环境噪声,并且各路麦克所接收的噪声彼此之间也是不相关的。麦克风阵列中第f个麦克风接收到的信号Ji(足)(f=l,2,M)可以表示为zf(七)=口,s(七一f,)+刀f似) (26)第二章麦克风阵列语音处理模型及算法简介 7对应的矢量形式为x)=asOf)+nO) (27)式中s一f)=b一f。),s一f:),sOfM)】r (28)n)=k。),玎:亿),咒M犷 (2-9)s)为声源信号,是声波传播的衰减因子,0是声波传播到两个麦克风所需要的时间,胛,)为环境噪声,而且J)和刀,)O=l,2,M)之间彼此不相关。声源尽图22理想声场模型当房间内只存在一个语音源和一个点噪声源时
26、,麦克风接收到的噪声只是点噪声源延迟信号和语音源延迟信号的叠加,则式(27)可以变为x)=as(七一t)+pn一f) (210)式(2一10)描述的就是方向性噪声场中的阵列信号模型。式中s一f)=b(七一r。),J(七一f:),s(七一fM)rn(七一下)=阢(疋一f:),刀(七一f;),刀(七一f:,)r(211)(2-12)s0一f)和n传一f)分别代表麦克风接收到的语音和噪声向量,并满足s一f)和n一f)相互独立。f=【。,f:,r和f=【f:,f;,fj:,】丁分别是语音源和噪声源到麦克JxL之问的时间延迟向量,由于语音源和噪声源空间位置不同,声音传播经过的路径不同, 所以时间延迟也不
27、相同。 伍=舭gb,口:,口M】和p=击口g防,缓,几】是两个对角阵,对角线上元素是与信号传播中的衰减有关的常数。(2) 实际模型实际中,由于混响是无法避免的,而且对语音增强的效果影响比较显著,因此,理想自由声场只能作为一一种理论J二的分析模型,必须既考虑环境噪声,又考虑多径反射噪声。麦克jxL阵列中第i个麦克JxL接收到的信号J,(七)(f1,2,M)可以表示为x,取)=口s(七一o)+“,)麦克风阵列语音增强算法研究=口,sGf,)+刀盯任)+拧正)=吃(七)幸sO)+甩盯) (213)对应的矢量形式可表示为x)=h)sG)+n,) (214)式中符号“木“为卷积算子,玎,)为干扰成分(包
28、括各种环境噪声和房间多径反射噪声),)表示第f个麦克风接收到的环境噪声,刀腰)表示第f个麦克风接收到的多径反射噪声。213声源模型图23实际声场模型在空气中,声音传播的速度随着温度和压力的变化而变化,但在标准温度和压力的条件下,声音速度K约为每秒340米。考虑一个平稳声源S和一个麦克风肘,这里假设声源为点卢源,声源与麦克风之间的距离为d,这样,声音从S至M所用的时间为f,这里ar=,340,ls (2-l 5),S如果声源产生的信号是sO),则麦克风接收的信号为工)=船似一f)+以(七) (216)式中f为时延,口是衰减常数,口与距离d之间的关系为口。门取)表示噪声,口可表示为力(七)=刀,)
29、+刀G) (2-17)式中,刀,Q)是【l于竞争声源所产生的干扰噪声,刀O)是混响噪声。前者一般是由风扇、房间罩其他人的活动或吹门哨、空气循环、电子噪卢等产乍的,与s(尼)不相关:后者是由于房fHJ墙壁反射产,的llJl波,与s仅)相关。这样,传感器接收到的由声源所产生的t;号为M似)=骝一z)+刀E)=Jl似)丰s(足) (218)第_二章麦克风阵列语音处理模犁及算法简介 9于是,式(216)可写成如下形式J)=矗似)宰sG)+刀,0)22麦克风的拓扑结构(219)在传统的阵列信号处理系统中,阵列的几何结构为均匀直线阵、均匀圆形阵,如图24和图26所示。后来逐渐出现了非均匀直线阵、非均匀圆形
30、阵,如图25和图27所示。均匀直线阵列结构简单,使用方便,并且同时间序列的均匀采样完全对应,可以采用绝大多数基于时间序列的算法,因此应用十分广泛。圆形阵列阵元均匀分布在一个圆环上,用以替代传统的全向天线。近来,出现了三维立体阵,如图28所示,即阵元分布在围绕信号源的空间域中唧J。阵元间距的选择与信号源的频率以及系统的采样频率密切相关。在子空间理论中,阵列接收一次数据就是对空间的一次采样,阵列收到的是一次空间采样后的采样数据,对于均匀直线阵列而言,阵元间距相当于时间处理中的采样频率,因此必须满足空间采样定理,即阵元间距必须小于或等于波长的一半。平面阵列和三维阵列的尺寸也是以接受信号的波长为单位来
31、确定。实际中应用比较多的是等距线性阵和均匀圆阵,本文中采用的阵列结构为等距线性阵。图24等距线性阵 图25不等距线性阵O a、一一,图26均匀倒阵,070、Q 、? 占l y独、 7、 f】、o、一一一,9图27非均匀圆阵图28二维立体阵10 麦克风阵列语音增强算法研究23噪声场在麦克风阵列语音增强中,噪声来源取决于实际的应用环境,噪声场是一个很重要的概念,不同的方法可能适用于不同类型的噪声场。语音信号在封闭环境传输时,由于反射、衍射的影响,会使麦克风阵列接收的语音来自多个路径,这种现象称为混响。混响对语音的影响表现为两个方面:首先,混响使语音信号产生失真:其次,混响改变了噪声场的空间特性。混
32、响对噪声场空间特性的改变体现为,单一的噪声源被扩展为多个不同方位的镜像源,噪声空间接近于散射噪声场。这一特性借助模平方相干函数来界定。设位于和,的两麦克风接收到的噪声分别为刀,(玎)和刀,(甩),相应的自功率谱及互功率谱分别(,w)、(厂,w)和(既,w)。于是,定义噪声的空时域模平方相干函数为 咖)=脚12=揣(2-2。)根据cf,(国)的值把噪声场分为相干噪声场、非相干噪声场和散射噪声场【411。(1)相干噪声场相干噪声场是指噪声信号直接从噪声源传播到麦克风阵列,而没有经过任何因传播环境而产生的反射、散射和耗散。在相干噪声场中,阵列中的不同麦克风接收到的噪声信号具有强相干性,即lL(厂)l
33、l。在实际环境中,相干噪声场存在于开放的空气环境中,在这种环境的周围没有主要的障碍物影响声音传播,而热湍流的影响也很小。(2)非相干噪声场非相干噪声场是指在给定的空间位置的噪声信号与其它所有位置的噪声信号都不相关,也就是说IL(厂)Io。这样理想的非相干噪声场在实际环境中不存在。而在麦克风阵列应用中,麦克风阵列中的电学噪声通常被认为是一种非相干噪声。非相干噪声也被叫做空问白噪声。(3)散射噪声场在散射噪声场,相同能量的噪声信号存各个方向同时进行传播。因此,散射噪声场中的麦克风接收到的噪声信号是弱相关的,并且具有近似柏I-】的能量。许多实际的噪声环境都可以被看作是散射噪声场。在散射噪声场中,任何
34、两点的噪声信号之问的:-r性可以用麦克风之间的距离函数来表示27哦,L(厂)=sin f(_) (221)式(221)中d。是麦克lxLi和,之间的距离。第二二章麦克风阵列语音处理模型及算法简介 ll24麦克风阵列算法简介麦克风阵列语音增强技术是将阵列信号处理与语音增强处理相结合,利用阵列信号的空间相位信息对语音进行增强的一种技术。它融合了语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,这就使麦克风阵列成为智能通信系统中捕捉说话人语音、改善语音质量的重要手段。它可提供比传统语音增强算法更好的噪声抑制效果,并且对应用环境有更强的适应能力。近年来,麦
35、克风阵列语音增强方法逐渐成为语音增强的研究热点。目前常用的麦克风阵列语音增强算法大致上有如下几类。2-41固定波束形成方法固定波束形成算法通过延时控制来补偿从声源到每个麦克风的延时,对每个麦克风接收到的信号进行延迟校正,然后使麦克风阵列波束指向有最大输出功率的方向,即波束对准相应空间位置的声源信号,这个算法最早由Flallag锄提出I跏。从理论上讲,固定波束形成方法在保持语音信号幅度不变的同时,衰减了干扰和噪声信号。固定波束形成方法可以分为三个部分,即时间延迟估计、时间延迟补偿及累加部分,如图29所示。该类麦克风阵列语音增强方法实现简单,但需要较多麦克风才能获得较好的噪声抑制能力,因此,实际中
36、很少单独使用。2K242自适应波束形成方法图29同定波求形成器自适应波束形成是现在J“泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法是1972年由Frost提出的线性约束最小方差(Lineally Constrained Minimum嘶锄ce,LCMV)自适应波束彤成器【4J。其基本思想是在保证有用信号的方向增益一定的条件F,使阵列输出信号的功率最小。该算法首先对阵列接收信号进行适当的时延补偿,然后在事先设定的频率响应约束条件下,保证波束形成器在期望信号方向J:的频牢响应不变,并使输出信号的12 麦克风阵列语音增强算法研究总功率最小,这样可使输出信号中的噪声功率最小。在线性
37、约束最小方差自适应波束形成器的基础上,1982年Grimths和Jim提出一种修正的线性波束形成器,即广义旁瓣消除器【5l(Generalized SidelobeC锄celler,GSC)。广义旁瓣消除器由三个部分组成:固定波束形成器(FixedBe锄fomling,FBF)、阻塞矩阵(Block Matrix,BM),自适应噪声抵消器(NoiseC锄celler,NC),系统框图如图210所示。广义旁瓣消除器的基本思想是将信号通道分为自适应通道和非自适应通道,要求有用信号只能从非自适应通道通过,并利用阻塞矩阵滤除有用信号,使自适应通道仅包含多通道噪声参考信号,最终利用自适应噪声抵消器得到噪
38、声估计,并用所估计的噪声抵消非自适应通道中的噪声分量。广义旁瓣消除器的算法结构较为经典,成为此后许多算法的基本框架。20012004年,G猢ot等人以经典的广义旁瓣消除器算法为基础,提出了一种基于声学转移函数的广义旁瓣消除器(Tr锄sfer Function GSC,TFGSC)【6】。嗍,并对该算法进行了深入研究。该算法是广义旁瓣消除器算法在频域内的扩展,其基本结构与GSC算法相同,但在构造固定波束形成器和阻塞矩阵时使用了声学转移函数,利用多帧阵列接收信号的互功率谱和最小二乘法估计声学递函数的比值,而不是直接估计声学转移函数本身。这样做可简化求解过程,并使滤波器的系数减少,从而提高了算法的效
39、率和鲁棒性。该算法在平稳噪声场(方向性噪声、非方向性噪声)中性能较好,并且增强后的语音失真度较小。广义旁瓣消除器在算法中通过假设已知目标信号的到达方向(Direction of加1rival,简称DOA)来构建阻塞矩阵,而目标信号的到达方向往往很难获知,所以目标信号的预期方向往往与实际到达方向不匹配,这称为DOA失配,这种不匹配会引起有用信号泄漏到自适应通道,从而使输出信号中的有用信号被部分抵消,引起了语音信号的失真,为解决这个问题,研究人员相继提出了改进算法【9】1141。9】和【10】使用一组泄露限制等式来减少目标信号的泄漏和对消。其中【9】的泄漏限制等式是通过估计阻塞矩阵泄露值获得的,1
40、0】是利用目标信号期望方向上的方向导数定义一组限制等式。【1l】中提出一种强健型GSC结构,采用自适应滤波器组替代阻塞矩阵,滤波器组的输入信号为固定波束形成器的输出,这种结构能减轻因目标信弓预定义相位与实际相位的误差带柬的有用信弓泄露。【12和【14同样基于DOA失配,提出在通用GSC结构后接-一个盲均衡器和一个反馈滤波器,这两部分都是自适应结构,采取LMS算法更新系数,均衡器主要是信道均衡和DOA失配影响均衡,反馈滤波器消除阻塞矩阵中的目标信号。这种结构不仅能消除平稳噪声信号,而且还能消除多道_F扰与散射信道噪卢,提高了系统的消噪性能。第二章麦克风阵列语音处理模型及算法简介 13243后置滤
41、波方法图210自适应波束法系统框图后置滤波可以用来去除声学环境中的非相干噪声,人们提出将波束形成器的输出信号通过后置滤波器以进一步提高输出信号信噪比。1977年A11eIl利用波束形成的方向性增益和维纳滤波器对非相干噪声抑制能力,提出将后置滤波用于语音增耐191。1988年zelinSki将其扩展到麦克风阵列中,对延时一求和波束形成的输出端使用自适应维纳滤波器,从而提出基于后置滤波的麦克风阵列语音增强方法【zUJ,进一步改善了噪声抑制能力,系统框图如图211所示。鉴于实际声学环境下噪声类型和噪声场的复杂性,许多学者将性能互补的方法相结合,以改善语音增强方法的噪声抑制能力。1996年,Fisch
42、er和Si咖er提出了GSC与、矾饥er滤波相结合的频域麦克风阵列语音增强方法【4zl,以抑制声学环境中的相干和非相干噪声。2003年,G猢ot和C0heIl提出了基于传递函数GSC和后置滤波的频域麦克风阵列语音增强方法f7l【明,以去除噪声场中可能存在的相干噪声、非相干噪声及非平稳噪声。图21l后置自适应滤波系统框图14 麦克风阵列语音增强算法研究244近场波束形成方法近场波束形成算法是新出现的麦克风阵列语音增强方法。1997年,贝尔实验室W砌和E11(o将球面波动方程扩展,提出一种混合近场与远场波束形成的设计方法嗣。1999年,Abhayapala和Kt釉edy等提出了一种自适应近场宽带波
43、束形成方法【z11,该方法基于波束形成器,其自适应的对象是声学模型系数而不是滤波器系数。2004年,Zheng等将特征值约束的远场LCMv波束形成方法扩展到近场声学环境,提出一种基于距离差的韧性近场波束形成方法M,用于小房间内的干扰噪声抑制。由于近场声学的复杂性,目前有关近场波束形成麦克风阵列语音增强方法的研究相对较少。245子空间方法子空间方法的基本思想是对信号自相关矩阵或协方差矩阵进行奇异值分解,将带噪信号空间分为有用信号子空间和噪声子空间。在去除噪声子空间后,可用有用信号子空间重建信号并得到增强后的信号。FJablo岫将一维信号子空间增强方法推广到多维的阵列语音信号增强处理【45】,并取
44、得了比单麦克风更好的消噪性能。、r觚L0aIl于l 976年首先提出的广义奇异值分解(Gene同ized Singular ValueDecoInposition,GSVD)方法是一种比较典型子空间增强算法嗣,应用非常广泛。1999年至2005年间,Doclo等相继提出基于广义奇异值分解的麦克风阵列语音增强方法【47J。基于子空间的麦克风阵列语音增强方法在相干和非相干噪声场中均有一定的消噪效果,且算法的鲁棒性优于常用的波束形成方法,但是计算量较大,因此,该类麦克风阵列语音增强方法实时处理具有一定困难。246盲信号分离近十年来,盲信号处理成为信号处理领域的一个研究热点,尤其是对语音信号盲分离更是
45、研究的焦点。近些年来,许多著名的专家学者都致力于盲信源分离的研究,己经提出了许多算法,这些算法大致可归纳为三类:第一类方法,信号经过变换后,使不同信号分量之间的相依性(d印eIldenc”最小化。这类方法称为独立分量分析(ICA)【24l,它是由Comon于1994年提出的。当信号之间的独立性采用不同的准则测度时,即可得到不同的算法,其中最典型的算法是矩阵的联合对角化和神经网络方法。第二类方法采用非线性传递函数对输出进行变换,使得输出分布包含在一个有限的超立方体中,然后熵的最大化将迫使输出分量尽可能在超立方体中均匀散第:章麦克风阵列语音处理模型及算法简介 15布。这类方法称为熵最大化方法。熵最
46、大化最终也得到信号分量独立性的类似测度。第三类方法为非线性主分量分析QmCA)。它是线性主分量分析方法的推广,在正交约束下可以实现信号的分离。247算法比较固定波束形成方法结构简单,但是消噪性能也比较有限,对非相干噪声的消除作用十分有限,不能自适应在干扰方向置零点,对目标DOA的估计误差很敏感,目前很少使用。自适应波束形成器(GSC)结构较为简单,对相干噪声抑制效果很理想,适合于时变的声学环境,对非相干噪声的消除作用有限,且依赖于对目标信号DOA的准确估计。后置滤波方法算法简单,能有效消除非相干噪声,增强之后的语音信号有一定的失真,较少单独使用,大多是结合别的算法。近场波束形成器的阵列在低频处
47、有较强的指向性,对低频噪声有较好的抑制性能,适合于散射噪声场,但是近场声学非常复杂,很难建模,并且要求对近场目标DOA的准确估计。子空间方法对阵元的增益误差、位置误差不敏感,对干扰有很好的消除性能,但是计算量较大,实时性较差,不适合时变性较强的声学环境。盲信号分离一般都是用高阶累积量进行分离,分离效果较好,但是复杂度比较高,很难实现实时性。对于这几种常见的麦克风阵列语音增强的方法的优缺点见表21。表21麦克风阵列语音增强方法的优缺点算法和结构 优点及适川噪声环境 缺点对非相干噪声的消除作用十分有同定波束形成法 结构简单,消除相干噪声限,对干扰不具有自适应性适合时变的声学环境,对相 对爿相干噪声
48、的消除作用有限,对白适应波束法干噪声有很好的消除性能 目标DOA的准确估计很敏感算法简单,能有效消除非相 较少单独使用,增强之后的语音信后置维纳滤波法干噪声 号有一定的失真对低频噪声有较好的抑制 近场卢非常复杂,很难建模,要近场波束形成器性能,适合丁散射噪声场 求对近场目标DoA的准确估计对阵元的增益误差、位置 计算鼙较人,不适合时变的声学环f空间方法误莠不敏感 境,很难实现实时性H高阶祟积鹫进J:分离,分占信号分离 复杂度比较高,很难实现实时性离效果较盘r麦克风阵列语音增强算法有很多种,但是经典的GSC算法结构较为简单,对射二i噪声消除效果很理想,对时变的声学环境有较好的消噪性能,所以本文选取16 麦克风阵列语音增强算法研究GSC算法作为改进的基础算法。25小结本章主要讨论了麦克风阵列的语音处理模型和几种常见的麦克风阵列语音增强算法。麦克风阵列的语音处理模型是语音信号处理的基础,只有了解阵列信号处理模型、麦克风拓扑结构和噪声场等相关知识,才能更为有效的进行语音处理;阐述并比较了固定波束形成方法、自适应波束法、后置滤波法、近场波束形成器、子空间法和盲信号分离等常用的麦克风阵列语言增强算法。通过对这两方面知识的阐述,表明了麦克风阵列语音增强算法在混响、背景噪声等干扰因素存在的声学环境下的独特优势,为麦克风阵列语