1、电子科技大学硕士学位论文基于麦克风阵列的声源定位技术的研究姓名:吴俣申请学位级别:硕士专业:信号与信息处理指导教师:吕明20080501摘要摘要麦克风阵列已广泛应用于音视频会议、语音识别及增强等领域。声源定位技术是基于麦克风阵列的阵列信号处理的关键技术之一,是语音信号处理领域的一个新的研究热点。本论文针对基于麦克风阵列的声源定位技术展开研究,主要做了以下几方面工作:总结归纳了目前基于麦克风阵列的声源定位技术的几类基本方法的原理及优缺点,并利用声线跟踪法建立了混响环境下的房间脉冲响应模型。由于语音信号及室内声场环境的特殊性,提出了语音信号的预处理,包括预滤波、加窗分帧处理、语音端点检测等。在实际
2、应用中,语音信号有可能位于近场,也可能位于远场,所以分别对近场、远场这两种情况下的声源定位技术进行了研究。在近场的情况下研究了近场可控波束定位算法和基于高阶统计量的近场声源定位算法两类。对于近场可控波束定位算法,在传统定点约束波束形成的基础上,推导出了近场定点波束新的表达式,把基于自校正的稳健的自适应波束形成应用于近场。对于基于高阶统计量的近场声源定位算法,把传统的近场源定位方法和3D类ESPRIT算法用于研究声源定位问题,都得到了很好的定位效果。在远场的情况下研究了基于子空间的声源定位算法。基于子空间的远场声源定位分为两个步骤t估计语音信号的二维角度和确定语音信号的位置。2D MUSIC算法
3、能够精确的估计基于任意阵列的语音信号的二维角度俯仰角和方位角,然后把基于子空间的测向算法和定位算法结合起来,提出了新的基于麦克风阵列的远场定位算法一一垂心定位法。该方法与传统的测向交叉定位法相比精度更高,抗噪性更好。关键词:麦克风阵列,声源定位,波束形成,高阶统计量,子空间A8STRACTABSTRACTMicrophone arrays are widely used in audiovideo conferences,speechrecognitions,and speech enhancements etcSpeech localization technology based onmi
4、crophone arrays is one of the array signal processing key technologiesIt is a newhotspot in acoustic signal processing fieldFocus on this technology,the followingwork has been done:ne basic theories of main kinds of speech localization technologies have beensummarized。A realization mode of room impu
5、lse response in room reverberationenvironment is proposed,using ray-tracing methodAcoustic signal pro-process isproposed,because of the particularity of the acoustic signal and the room reverberationenvironment,including pre-filtering,voice activity detection etcIn actual use,acousticsignal is eithe
6、r in near field or in far field,SO we research the speech localizationtechnology in the two conditions respectivelyIn near field,we use near-field adaptivebeamforming and speech localization based on higher order statisticsThe presentedrobust near-field adaptive beamformer isdeveloped by combining a
7、 new formulation ofthe pon-constrained robust beamformer and a self-calibration technique3-D ESPRITalgorithm is used to estimate the speech location,and compared with the traditionalnear-filed soRrcg localization methodIn far field,we researched the subspace methodIt iS consists of two parts,souEce
8、direction technical and source locating technicalThespeech localization technology using orthocenter localization algorithm has beenproposedA subspace method 2一D MUSIC algorithm is applied to estimate the planeangle and the polar angleW髓the bearing results of subarrays,main-array confirms apoint in
9、the triangle enclosed by location lines as the target positionKeyword:microphone array,speech localization,beamforming,higla order statistics,subspace methodII独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特多l,J)Jn以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所
10、做的任何贡献均已在论文中作了明确的说明并表示谢意。签名_盖j兰 圈期: 年,El Et关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名一兰竣 导师签名:蜀期: o第一章引言11 研究背景第一章 引言语言是人类特有的功能,声音是人类常用的工具,是相互传递信息的最主要的手段。通过语音传递信息是人类最重要、最有效、最常用
11、和最方便的交换信息的形式。因此,语音信号是人们构成思想沟通和感情交流的最主要的途径。并且,由于语音和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。麦克风阵列是指由一定的几何结构排列而成的若干个麦克风组成的阵列。相对于单个麦克风而言具有更多优势,它可以电子瞄准的方式从所需要的声源方向提供高质量的声音信号,同时抑制其他人的声音和环境噪声,具有很强的空间选择性,而且不需移动麦克风就可获取移动的声
12、源信号,同时它还可以在一定的范围内实现声源的自适应检测、定位及跟踪,这使得它在诸多领域有着广泛的应用。基于麦克风阵列的声源定位是指用麦克风阵列拾取声音信号,通过对多路声音信号进行分析与处理,在空间域中定出一个或是多个声源的平面或空间坐标,即得到声源的位置,以进一步控制摄像机和麦克风阵列波束对准正在说话的人。传统定位是采用雷达技术,而基于麦克风阵列的定位系统相对于传统的雷达跟踪定位而言具有隐蔽性、不易受干扰。正是由于其独特优势,基于麦克风阵列的应用已经成为一门新型的技术。同时, 由于它涉及到阵列信号处理、数字信号处理、模式识别和数据融合等多方面的理论知识,因而成为语音信号处理中难度大、且具有挑战
13、性的研究课题。早在20世纪七八十年代,就已经开始将麦克风阵列应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点【IJ。1985年Flanagan将麦克风阵列引入到大型会议的语音增强中,并开发出很多实际产品。1987年Silverman将麦克风阵列引入到语音识别系统,1992年又将阵列信号处理用于移动环境下的语音获取,后来将其应用于说话人识别。1995年Flanagan在混响环境下用阵列信号处理对声音进行捕获。1996年Silverman电子科技人学硕士学位论文和Brandstein开始将其应用于声源定位中,用于确定和实时跟踪说话人的位置。目前
14、麦克风阵列系统已有许多应用,其中在民用上包括视频会议2】【3】【41、语音识别【51、车载系统环境、大型场所的会议记录系统以及助听装置【6】等;军用上17】包括声纳系统对水下潜艇的跟踪及无源定位直升机和其他发声设备上。在国外,很多著名的公司和研究机构,如IBM,BELL等,正致力于麦克风阵列的研究和产品,而且已经有了一些初期产品进入市场。这些产品已经应用到社会生活的各个场合并体现出了极大的优越性。遗憾的是,在国内,到目前为止还没有自主产权的麦克风阵列产品。因此,研究我国自主的基于麦克风阵列的语音处理算法和技术具有重要的意义。我国一些企业、研究所和高校做了大量的相关工作,但是目前对声源定位的研究
15、才算刚刚起步。12麦克风阵列声源定位技术概述基于麦克风阵列的声源定位方法大体上可分为三类【9】:(a)基于到达时延(TDOA)的定位技术。该方法首先求出声音到达不同位置麦克风的时延,再利用这些时延求得声音到达不同位置麦克风的距离差,最后用搜索或几何知识确定声源位置;(b)基于可控波束形成的定位技术。该方法对麦克风阵列接收到的语音信号进行滤波、加权求和,然后直接控制麦克风指向使波束有最大输出功率的方向;(c)基于子空间的定位技术。该方法利用求解麦克信号间的相关矩阵来定出方向角,从而进一步定出声源位置。121 基于到达时延的定位技术基于到达时延(Time Delay of Arrival,TDOA
16、)声源定位方法是应用最广泛的方法。它首先估计出声源到达麦克风阵列的各阵元的相对时延,再利用时延算出声源到达各阵元的距离差,最后用搜索或几何算法确定声源位置【lo】。基于TDOA的源定位一般分为两个步骤进行【lI】:第一步,先进行时延估计(TDE)并从中获得麦克风阵列中相应阵元对之间的TDOA。TDE的方法大致可分为广义互相关(Generalized Cross Correlation,GCC)法、LMS自适应滤波器法、线形回归(Linear Regression,LR)法和互功率谱相位(Crosspower Spectral Phase,CSP)法四种。第二步,利用TDOA结合已知的麦克风阵列
17、的空间位置进行定位估计,主要的方法有ML(最大似然)法、SI(Spherical Interpolation,球形插值)法和LI(Linear Intersection,线性相交)法几种。2第一章 引言在现有麦克风器阵列声源定位中,基于时间到达差的定位方法精度相对较高,计算量是三种方法中最小的,可以考虑在实际中实时实现。不过由于该方法的定位分为2个过程(时延估计和定位),在定位时所使用的参数是过去时间,因此该估计只是一个次最优的定位。同时该定位比较适合单声源的定位,对多声源的定位效果不是很好,房间的混响也会影响定位的准确性。122基于可控波束形成的定位技术在这三种定位方法中,基于可控波束形成的
18、定位技术是出现较早且已应用于实际的一种定位方法,较多的用于雷达、声纳以及移动通信的信号处理中。波束形成的基本思想是将各阵元采集信号进行了加权求和形成波束,进而通过搜索声源可能的位置来引导波束,修改权值使麦克风阵列的输出信号功率达到最大,波束输出功率最大的点就是声源的位置。文献【12】t31是最早提出该方法的理论基础。基于可控波束形成的定位技术,主要分为延迟累加波束算法和自适应波束算法。前者运算量较小,信号失真小,但抗噪性能差,需要较多的阵元才有比较好的效果。后者因为加了自适应滤波,所以运算量大比较大,而且输出信号有一定程度的失真,但需要的麦克风数目相对较少,在没有混响时有比较好的效果。可控波束
19、形成技术本质上是一种最大似然估计,它需要声源和环境噪声的先验知识。而实际使用中,这种先验知识往往很难获得。同时进行定位估计是一个非线性优化问题,这类非线性优化的目标函数往往有多个极点,对初始点选取很敏感。用传统的梯度下降法往往容易陷于局部极小点,从而不能找到个局最优点,若采用别的搜索方法来找个局最优点,就会增加计算复杂度,不适用于实时系统。波束形成算法已经广泛的应用于基于麦克风阵列的语音拾取领域,但要达到稳健有效的声源定位还十分困难。本文针对近场环境,对稳健的自适应波束形成算法进行了研究。123基于子空间的定位技术、:基于子空间的定位技术来源于现代高分辨率谱估计技术。子空间技术是阵列信号处理技
20、术中研究最多、应用最广、最基本也是最重要的技术之一。该类声源定位技术是利用接收信号相关矩阵的空间谱,求解麦克风间的相关矩阵来确定方向角,从而进一步确定声源位置。子空间类方法主要分两类,一类是利用阵列自相关矩阵主特征向量(即信号子空间)的主分量方法,如AR参数模型主分量法,电子科技大学硕士学位论文BT主分量法等;另一类方法是以信号子空间和噪声子空间的正交性原理为基础,利用组成噪声子空间的特征向量来进行谱估计,这类算法主要有多重信号分类法(MUSIC)141,Johnson法,最小范数(Mini-Norm)法,MUSIC根(RootMUSIC)法【l卯,旋转不变信号参数估计(ESPRIT)法,等等
21、。在实际中,基于子空间的定位技术的空间谱的相关矩阵是未知的,必须从观测信号中来估计,需要在一定时间间隔内把所有信号平均来得到,同时要求接收信号处于声源、噪声、估计参数固定不变的环境和有足够多的信号平均值。即便满足这此条件,该算法也不如传统的波束形成方法对声源和麦克风模型误差的鲁棒性好。目前定位问题所涉及算法都是研究远场的线性阵列情况。基于子空间的定位技术是通过时间平均来估计信号之间的相关矩阵,需要信号是平稳过程,估计参数固定不变,而语音信号是一个短时平稳过程,往往不能满足这个条件。该定位方法的效果和稳定性不如可控波束形成法,但每次迭代的计算复杂度不像可控波束形成那么苛刻。此外还要求阵列处于远场
22、情况,而且该方法主要针对窄带信号,而语音信号是宽带信号。虽然如此,在适当的改进后,也可用于近场环境。本文针对近场、远场两种模型,对基于子空间的声源定位进行了研究。13基于麦克风阵列的声源定位技术的难点基于麦克风阵列的语音信号处理是阵列信号处理的一种,但它又不同于传统的阵列信号处理,其主要技术难点如下:1、麦克风阵列模型的建立:麦克风阵列主要用于处理语音信号,声源信号可能位于麦克风阵列的远场范围内,也可能位于麦克风阵列近场范围内。如果声源信号位于麦克风阵列近场范围内,此时传统阵列处理,如雷达、声纳等,所用的平面波前远场模型不再适用,必须使用更为精确的球面波前模型【16】。球面波前模型必须考虑由于
23、传播路径不同所带来的幅度衰减的不同,即除了信号的到达方向外,还需要考虑声源与麦克风阵列之间的距离。所以,进行麦克风阵列研究,除了要建立常规的平面波前远场模型以外,必须建立适用于麦克风阵列的球面波前近场模型。2、阵列宽带信号的处理:传统的阵列处理的信号一般是窄带信号。阵元之间接收到的信号的时延和相位差主要由载波确定。在麦克风阵列处理中,拾取到的语音信号没有经过调制,也没有载波,阵元之间接收到的信号的时延和相位差由4第一章弓|富信号源的特性来决定。麦克风接收到的语音信号频率一般在3003000Hz之间,阵列之间的时延和相位差与信号源的频率关系密切。因此,麦克风阵列处理的信号可以看成是一个宽带信号,
24、这使得阵列处理更加困难。3、非平稳信号的处理:传统的阵列处理的接收信号一般为平稳信号,丽麦克风阵列中的接收信号为菲平稳的语音信号。语音信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的,所以它是一个非平稳态过程,不能用处理平稳信号的数字信号处理技术对其进行处理分析。虽然语音信号具有时变特性,但是在一个短时间范围内(一般认为在10。30ms的短时间内),其特性基本保持不变即相对稳定,因丽可以将其看作是一个准稳态过程,帮语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时的基础上,即进行“短时分析一,将语音信号分成一段一段来分析其特征参数,其中每一段称为一“帧“,帧长一般
25、取为1030ms。这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。本文结合上面的宽带和非平稳的情况,对麦克风阵列静处理过程为先把接收信号经过一个短时傅立时变换,求出萁短时谱,然后在频域进行处理。每一频率对应一个相位差。麦克风阵列的信号处理其实质是将宽带信号在频域上分成多个子带,对每一个子带应用传统的窄带处理,放瑟褥到接收信号的空间谱。14影晌麦克风阵列定位性能的因素影响麦亮风阵列定位性缝的因素是多种多样的,主要概括如下:l、背景噪声:背景噪声是由于声源定位的环境主要为会场,多媒体教室,高速行驶的汽车内部丽带来的噪声。鹜景噪声一般来说能量不会特别大,不会掩盖正常的
26、语音。背景噪声通常不具有空间方向性,或者说是一个全向噪声。2、方向性干扰【l 7】:方向性干扰通常是点于扰源。它可能是固定的,如风扇、空调等,也可能是移动的,如吸尘器等。方向性干扰的能量有可能很大,足以掩盖正常的语音信号。3、模型噪声:严格来讲,模型噪声不是语音通信环境中的豳有噪声,人为雩|入的噪声。如在计算各个统计量时,由于样本数有限,得到的估计值与真实值存在偏差等。人们在使用各种算法进行噪声处理过程中,使得真实的数据模型和算法设定的数据模型之间存在差异,所以人们称之为模型噪声。模型噪声的随机性很大,随时间、地点的改变嚣改变,影响了算法的处理性能。电子科技人学硕士学位论文4、房间混响:由于房
27、间的反射,麦克风不仅接收到声源信号的直接到达部分,还接收到反射部分,从而使房间内部产生了混响。由于混响的存在,导致了互相关函数或者波束的尖峰扩展,使得难以确定最大值,从而影响了麦克风阵列的定位性能。5、麦克风的摆放及数量:麦克风的间距和相对位置会极大地影响定位的精度,对于一个定位系统而言,麦克风的数量越多,麦克风的相对位置越多样化,提供的空间信息量越大,从而具有较高的定位精度。而在实际系统中,麦克风的摆放位置比较固定。所以需要尽量少的麦克风和固定摆法条件下,提高它的定位精度。所以麦克风的摆放和数量影响着定位的性能。15本文主要工作本课题的主要任务是研究基于麦克风阵列的声源定位技术。根据课题本身
28、的需要,本文所展开的主要工作包括:(1)根据室内声源定位的环境,建立了室内混响模型。(2)研究了语音信号的预处理过程。通过语音信号的预处理使传统的阵列处理算法能应用于声源定位系统。(3)研究了近场可控波束定位算法。把基于自校正的稳健的自适应波束形成算法应用于近场,实现了对近场的麦克风阵列波束形成。(4)研究了利用高阶统计量的近场源三维空间定位的算法,并把它用于声源定位系统。(5)研究了基于子空间的远场声源定位算法,其中包括基于子空间的测向算法和定位算法。提出了在远场环境下的新的声源定位算法。(6)对本文所涉及到的几类算法的性能进行了比较。本文的章节安排如下:第一章介绍了基于麦克风阵列的声源定位
29、的研究背景与发展现状、归纳总结了基于麦克风阵列的声源定位技术的几类基本技术的原理及优缺点,并讨论了声源定位的技术难度和影响声源定位性能的因素。第二章根据室内声源定位的环境,建立了室内混响模型,利用声线跟踪法实现了房间脉冲响应的仿真。讨论了语音信号预处理的过程,包括预滤波、加窗分帧处理和语音端点检测等。第三章研究了近场可控波束定位算法,在定点约束波束形成的基础上,把6第一章引言基于自校正的稳健的自适应波束形成算法应用于近场,通过计算机仿真验证了该方法的有效性。第四章研究了利用高阶统计量的近场源三维空间定位的算法,包括传统的近场源定位算法和3D类ESPRIT算法来研究声源定位问题。通过仿真比较了这
30、两种方法,验证了这两种方法均适用于声源定位系统,并具有良好的性能。第五章研究了基于子空间的远场声源定位算法。首先介绍了基于子空间的测向算法,主要讨论了MUSIC算法,包括经典的MUSIC算法和2DMUSIC算法,并把基于子空间的测向算法和定位算法结合起来,提出了新的基于麦克风阵列的远场定位算法一垂心定位法,并与测向交叉定位法在性能上进行了比较。本章在最后还对本文所涉及到的几类算法的性能进行了比较。第六章全文总结与展望。7电子科技大学硕十学位论文21 引言第二章 室内声场混晌模型及语音信号预处理随着现代多媒体计算机的高速发展,利用数字技术对各类声学环境进行仿真模拟的时机也日趋成熟。目前,国际市场
31、上已出现了一批可用于房间音质可听化设计、工业噪声控制以及各类语音系统设计的软件,它们的基本思想都是一致的,即首先利用计算机建立目标声学环境的模型,然后利用计算机计算其房间脉冲响应,最后将输入声信号与房间脉冲响应进行多通道卷积并通过耳机重放。其中,房间脉冲响应的模拟是最关键的工作。所谓房间脉冲响应,指的是输入声音信号、声学环境、输出的重造可听声信号三者所构成的系统的脉冲响应函数。综观现有的各类声学模拟软件,都直接或间接用到了一种模拟计算方法,即“声线跟踪法“。本章将结合具体实践对这种方法的基本原理、算法加以详细的讨论。由于传统的阵列处理的信号一般是窄带信号,而麦克风阵列接收到的语音信号是没有经过
32、调制的非平稳宽带信号,同时室内各种其他声音的多径反射和混响等因素导致了单个麦克风接收的信号信噪比降低,所以我们必须对语音信号进行预处理后才能进行后续的定位。在本章中所讨论的预处理过程包括预滤波、加窗分帧、端点检测等。22室内混晌模型现在,室内声场的计算机仿真已经和虚拟环境技术紧密地结合在一起,相当多的研究者已着手探索对虚拟声环境进行定性或者定量的分析。一般来说,房间对声音的主要影响是:引起一系列的反射声;与露天不同的音质;由于房间的共振,而引起室内声音在某一频率的加强或减弱。分析声波在室内传播情况,我们可以利用波动声学(物理声学)的理论进行分析,但这将涉及到一系列复杂的数学推导过程。而在工程实
33、践中,则主要采用了“几何声学“与“统计声学“的分析方法与计算公式。在房间中所碰到的声源,包括语言、音乐以及噪声,基本上都是无规过程,没有连续的纯音,这就是几何声学与统计声学只考虑能量关系的基础。几何声学还进一步要求声波所遇到的反射面、障碍物的尺寸都应大于波长。第二章室内声场混响模型及语音信号处理通常可以将室内声学仿真的方法分成两大类,第一类是基于几何声学或波动声学,基于几何声学的一般有声线跟踪算法和虚声源模型,以及刚刚发展起来的有限元与边界元的计算方法。第二类一般基于统计声学的结果,它从信号处理或随机模型的角度来模拟声信号在环境中的传播。在本章中,我们主要利用了基于几何声学的声线跟踪算法来模拟
34、室内的声场环境。221 声线跟踪法的基本原理假设各个壁面都是平面,在某时刻一定位置的声源信号均匀地向四周释放出大量的声粒子,这些声粒子在与壁面碰撞以前都是沿直线运动的,把声粒子与壁面的碰撞点逐次相连所形成的线我们称之为声线。假定每根声线开始时都携带了相同的能量,其大小取决于声源辐射的总能量和声线的根数。求出声线与所有壁面的交点,取其传播方向上最近的交点作为声粒子与壁面的碰撞点。声线在该碰撞点的一部分作镜面反射,其方向由反射定律决定;一部分作扩散反射,其方向可利用概率论知识来选取。发生碰撞后,该声线沿新的方向继续前进,每次碰撞后它的能量减少为碰撞前的O一口1倍(口为壁面的吸声系数),直到其能量低
35、于事先设定的阈值时,计算机就停止对该声线的跟踪,然后跟踪下一条声线。如此重复进行,直至所有粒子均被跟踪完毕。在这一过程中,声线穿过预先设定的计数面积或计数体积时,计算机计算并记录下它的到达时间、能量和新的传播方向。由此可以得到一个幅度的时间分布,只要时间间隔取得合适,就可以把它作为一个短时间内的平均脉冲响应。222声线跟踪法计算房间脉冲响应声源辐射的声线在第一次碰撞前是空间均匀分布的,因此以声源所在的点为坐标原点建立直角坐标系(如图2-1所示),只考虑第一卦限的情形,在z=0和z=l之间作n个平行于xoy面的平面。在图2-I中:谚=T2i-1三2n其中,;=sin包为第i个圆的半径,其在第一卦
36、限的弧长J!:=三2万sin毋。相邻两个圆之间的距离为6=三2n。假设在第i个圆上取个等间隔点,他取最接近6的正整数值,则:9电子科技大学硕士学位论文办=孕嘉 (2-2)图2-l声源信号坐标位置图确定的i,J对应于空间位置确定的点。各个点与声源的连线即声线,声线的方向余弦为:at,=sin2 xcos#,, (23)层,J=sinO,xsin办, (2-4)乃,=eosO, (2-5)所以声线方程可以表示为:至玉:丝二苎:三至 (26)a p y其中,(五,Y。,z。)是声线起始点坐标,(而,此,z2)是该声线与壁面碰撞点坐标,(口,厂)是声线的方向余弦。对于确定的坐标系而言,各个壁面所在平面
37、的状态,包括方程、法线方向余弦、吸声系数口、散射系数d等都是己知的。这样,就可以利用射线与平面相交确定唯一交点(19】,这个交点即为声线与壁面的碰撞点。除了确定声线与壁面的碰撞点之外,同时还要确定碰撞反射后声线的新方向。这时可由计算机产生一个0,1的随机数r,若rd,则认为这根声线发生镜面反射,可以根据下面的公式求得新的出射方向:92=口l-2cos2x,u (27)屐=届一2cos,;t,X刁 (28)托=乃一2cos2xf (29)其中,下标1表示碰撞前,下标2表示碰撞后,五表示声线与碰撞面法线的夹角,(,7,孝)表示该法线的方向余弦。10第二章室内声场混响模型及语音信号处理如果,d,我们
38、就认为发生扩散反射,根据概率论知识,入射声线的反射方向是随机的,即反射声线的俯仰角和方位角独立地服从o,州21内的均匀分布。所以我们将fo,万21区间作M等分,每次碰撞发生时,就由计算机产生0,1内两个独立的随即数,吒,如果它们满足:i-05吒i+05 (210)一r(一 Z-M M堕丛堕 (211)M M则取反射角为:9l=ix 7t|M谚,=jx万M f,J=o,l,M (212)那么反射方向可根据式(2-12)确定。这样一条声线从声源出发到由能量阈值所决定的最后一个碰撞点结束的全过程都可以得到跟踪。再利用同样的方法跟踪其它声线直至所有声线均被跟踪完毕。最后,根据到达接收点的声线的到达时间
39、和能量就可以获得该点的幅度一时间分布图。声线跟踪法的实现框图如下图所示:是l 记录时间、幅度上l 数据处理图2-2声线跟踪法框图ll电子科技火学硕士学位论文223仿真实验假设房间大小)b(8x12xlO)(米),声源信号的位置为(3,10,4),设壁面吸声系数均为005,散射度均为06,声源每隔r发出一根声线,每根声线的反射考虑到30级。给出在声源信号处利用上述算法求得的幅度脉冲响应(时间间隔取为ms)如图所示。0 lOO 200 300 400 500 600 700 8000Time(ms)23语音信号预处理图23房间脉冲响应由于传统的阵列处理的信号一般是窄带信号,而麦克风整列接收到的语音
40、信号是没有经过调制的非平稳宽带信号,同时室内各种其他声音的多径反射和混响等因素导致单个麦克风接收的信号信噪比降低,所以我们必须对语音信号进行一系列的预处理后才能进行后续的定位。这里的语音信号预处理过程包括了预滤波、加窗分帧处理、语音端点检测等。231 预滤波预滤波【201是语音信号预处理的第一步。预滤波器实际上是一个带通滤波器,该带通滤波器的上截止频率为厶和下截止频率为五,对于绝大多数的语音编码器而言,我们设置上截止频率为厶=3400Hz、下截止频率为五=60100Hz,采样12525150临眈吣嘶o第二章室内声场混响模型及语音信号处理率为Z=8kHz。当使用要求较高或很高的场合时,设置上截止
41、频率为厶=4500Hz或8000Hz、下截止频率为五=60Hz,采样率为Z=10kHz或20触。预滤波的目的有两个:1、抑制输入信号各频域分量中频率超出f,2的所有分量(Z为采样频率),以防止混叠干扰。2、抑制50Hz的电源工频干扰。232加窗分帧处理经过数字化的语音信号实际上是一个时变信号,为了能用传统的方法对语音信号进行分析,应假设语音信号,在10ms,-,30ms短时间内是平稳的。后面的所有分析都是在语音信号短时平稳这个假设条件下进行的。为了得到短时的语音信号,要对语音信号进行加窗分帧【2l】操作。一般每秒的帧数约为33100帧,视实际情况而定。分帧虽然可以采用连续分段的方法,但一般要采
42、用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧长的比值一般取为肚12。分帧是用可移动的有限长度窗口进行加权的方法来实现的,这就是用一定的窗函数w(n1来乘s(拧),从而形成加窗语音信号5。,(以)=s(甩)木w(刀)。在加窗的时候,不同的窗口选择将影响到语音信号分析的结果。在选择窗函数时,一般由两个问题要考虑。(1)窗函数形状在语音信号数字处理中常用的窗函数是矩形窗和汉明窗,他们的表达式如下(其中N为帧长):矩形窗:w(,z):1,os刀N一1(2-13) 【0, 甩=else汉明窗:w(刀):jo54一o64cos【2刀(一1)】,
43、o刀一l(2-14)【0, 甩=ese虽然这些窗函数的频率响应都具有低通特性,但不同的窗函数形状将影响分帧后短时特征的特性。而且不同的短时分析方法(时域、频域、倒频域分析)以及求取不同的语音特征函数可能对窗函数的要求不尽相同,但一般来讲,一个好的窗函数的标准是:在时域因为是语音波形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取出的语音波形缓慢降为零,减小语音帧的截断效应:在频域要有较宽的3dB带宽以及较小的边带最大值。矩形窗与汉明窗的一些参照数据如下表所示:电子科技大学硕士学位论文表21矩形窗与汉明窗的比较窗类型 旁瓣峰值 主瓣宽度 最小阻带
44、衰减矩形窗 13 4:wN 一21汉明窗 41 8xN 53矩形窗的主瓣宽度最小,因此它具有较高的频谱分辨率,但是它的旁瓣峰值最大,因此其频谱泄露也比较严重。相较而言,虽然汉明窗主瓣宽度为矩形窗的一倍,但是它的旁瓣衰减较大,具有更平滑的低通特性,能够在较高程度上反映短时信号的频率特性。因此在语音频谱分析时通常使用汉明窗来获得分段语音,而在计算短时能量和平均幅度时则通常使用矩形窗。(2)窗函数长度采样周期C=1Z、窗口长度N和频率分辨率鲈之间存在下列关系:AT=志 可见,采样周期一定时,矽随窗口宽度N的增加而减小,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时
45、间分辨率提高,因而二者是矛盾的。应该根据不同的需要选择合适的窗口长度。不论什么样的窗函数,窗函数的长度对能否反映语音信号的幅度变化起决定性的作用。如果N特别大,即等于几个基音周期量级,则窗函数等效于很窄的低通滤波器,此时,信号短时信息将很慢地变化,因而也就不能充分地反映波形变化的细节;反之,如果N特别小,即等于或小于一个基音周期的量级,则信号的能量将按照信号波形的细微状况而很快地起伏。窗函数的衰减基本上与窗的持续时间无关,因此当改变宽度N时,只会使带宽发生变化。通常认为一个语音帧内,应含有17个基音周期。通常在10kHz的采样频率下,N折中选择为100-200点为宜(即l呲0ms持续时间)。这
46、样,经过加窗分帧处理,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序列。233语音端点检测在使用麦克风阵列处理各帧采样数据时,该帧数据中是否含有语音信号所需14第二章室内声场混响模型及语音信号处理的运算量相差很大。如果不加区别,就会严重影响算法的实时性,浪费系统资源。因此,对采样数据进行语音检测【23】是非常必要的。考虑实时性的问题,我们从语音本身特点(短时能量、过零率等)出发,对语音信号进行
47、端点检测。语音信号的能量随着时间变化比较明显,语音信号的短时能量分析给出了反映这些幅度变化的一个合适的描述方法。对于信号z(咒),短时能量的定义如下:E=x(聊)w(以一m)=x2(聊)(万一m)爿2(珂)晕(,z) (2-19)m= m2一田式中,办(刀)=户(刀),巨表示在信号的第n个点开始加窗函数时的短时能量。可以看出,短时能量可以看作语音信号的平方经过一个线性滤波器的输出,该线性滤波器的单位冲激响应为h(n)。x2(以) h(n)()2图24短时能量框图如果用(万)表示工(咒)经过加窗处理后的信号,窗函数的长度为N,则短时能量可表示为14-lE=(甩) (2-20)短时能量主要有以下几
48、个方面的应用:(1)可以区分浊音段与清音段,因为浊音时巨值比清音时大的多。(2)可以用来区分声母与韵母的分界,无声与有声的分界,连字(指字之间无间隙)的分界等。(3)作为一种超音段信息,用于语音识别中。短时能量函数的一个主要问题是E对信号电平值过于敏感。由于它是对信号进行平方运算,因而人为增加了高低信号之间的差距,在定点实现时很容易产生溢出,在一些场合不太适用。解决这个问题的简单方法是定义一个平均幅度函数M。来衡量语音幅度的变化,其公式为西 n+-1M(咒)=I工(刀)p(刀一m)=M聊)l (221)月l=口12n这里加窗后信号的绝对值之和代替了平方和,使运算进一步简化。短时平均幅度的实现如
49、下图所示Ix(玎)l h(n)l l :2+15电子科技人学硕士学位论文图2-5短时平均幅厦框图短时平均过零率是语音信号时域分析中最简单的一种特征。顾名思义,它是指每帧内信号通过零值的次数。过零率可以反映信号的频谱特性。对于连续语音信号,可以考察其时域波形通过时间轴的情况。对于离散信号,相邻两个样点的正负号异号时,我们称之为“过零一,即此时信号的时间波形穿过了零电平的横轴。统计单位时间内样点值改变符号的次数就可以得到平均过零率。由于语音信号是一种短时平稳的宽带信号,因此在统计平均过零率时往往按帧来计算,这样得到的就是短时平均过零率,其定义为乙=Is盟x(m)一s盟工(m1)卜(玎-m) (222)式中,sgn【】是符号函数,即sgn【石】=二i, :二三三; c223,w(,z1为窗函数,计算时常采用矩形窗,窗长为N。可以这样理解:当相邻两个样点符号相同时,lsgnx(聊)一s盟工(聊一1)|=o,没有产生