收藏 分享(赏)

语音信号处理基础[1].pdf

上传人:精品资料 文档编号:10597729 上传时间:2019-12-04 格式:PDF 页数:34 大小:819.28KB
下载 相关 举报
语音信号处理基础[1].pdf_第1页
第1页 / 共34页
语音信号处理基础[1].pdf_第2页
第2页 / 共34页
语音信号处理基础[1].pdf_第3页
第3页 / 共34页
语音信号处理基础[1].pdf_第4页
第4页 / 共34页
语音信号处理基础[1].pdf_第5页
第5页 / 共34页
点击查看更多>>
资源描述

1、语音信号的声学原理 语音信号的产生 人类的发音器官主要包括肺、气管、喉、咽、鼻和口等。这些器官共同形成了一条发声管道,其中喉以上的部分称为声道,其形状根据发出声音的不同而变化。喉的部位称为声门。 如下图所示,它是语音产生的机理图。正常呼吸时,肺部收缩产生空气流。当空气流通过声带时,若声带是绷紧的,则声带将周期性地开启和闭合。声带开启时,空气流将从声门喷射出来,形成一个脉冲;声带闭合时相当于脉冲序列的间隙期。所以,这种情况下在声门出将产生出一个准周期性脉冲序列状的空气流。 该空气流经过声道响应后最终从嘴唇辐射出声波一浊音。若声带是完全舒展开来的,空气流将顺利的通过声门。这之后空气流将会遇到两种不

2、同的情况:如果声道的某个部位收缩形成了一个狭窄的通道.,空气流就会被迫高速通过该收缩区并在收缩区附近产生空气湍流,空气湍流通过声道后便形成摩擦音或清音;如果声道的某个部位完全闭合在一起,当空气流到达此处时就会产生空气压力,一旦闭合点突然开启便会让气压快速释放,经过声道后就会产生爆破音。 由此可见,语音是由空气流激励声道产生的。三种不同的激励源激励声道产生了浊音、清音和爆破音三种不同类型的声音。浊音激励源是位于声门处的准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流(类似于噪声),而爆破音的激励源是位于声道某个闭合点建立起来的气压及其突然地释放。 语音信号产生的数字模型 通过研究发声

3、器官和语音信号的产生过程便可以建立一个语音信号产生的数字模型。如图下所示,该数字模型包括激励源、声道模型和辐射模型三个部分。激励源分为浊音和清音两个分支,根据开关所处的位置决定产生的是浊音还是清音。当开关接在浊音的分支上时,激励信号由一个准周期脉冲序列发生器产生,其重复频率由基因频率决定。为了使浊音的激励信号具有声门气流脉冲的实际波形,还需要让冲击序列通过一个声门脉冲模型滤波器。为了能够调节浊音信号的幅度或是能量,还要乘上系数Av。当开关接在清音分支上时,激励信号由随机噪声发生器产生。为了能够调节清音信号的幅度或是能量,需乘上系数Au。大量实验证明,对于大多数的语音来说,声道模型的传递函数是全

4、极点函数。辐射模型与嘴型有关。 在该数字模型中,除了声门脉冲模型和辐射模型参数保持不变外,基因频率、Av、Au、清浊音开关位置和声道模型参数都是随时间变化的。但是,由于发生器官的惯性使得声道模型参数的变化速度十分缓慢,在10一30ms的时间间隔内可以认为参数保持不变,所以在作语音信号的短时处理时帧长一般取10一30ms。 语音信号的声学特性 语音是由人的发音器官发出来的一种声波,它和其它的各种声音一样,具有声音的各种物理特性。也就是说,语音也具有一定的音色、音调、音强和音长。 音色-也称为音质,它是一种声音区别与其它声音的一项基本属性。音色由以下三个因素所决定:声带是否振动、是否采用送气的方法

5、和声道的形状和尺寸。 音调-它是指声音的高低,在汉语语音学中又称为音高。音调的高低取决于声波的频率,而声波的频率又与声带的长短、薄厚以及松紧程度有关。 音强-声音的强弱。它由声波振动的幅度所决定。 音长-声音的长短。它由发音持续时间的长短所决定。在汉语的普通话中,一个音节中的各个音素由于作用不同,其音的长短就不同。对于一个多音节的词,由于每个音节的轻重不同,其长短也就不一样。 音节-它是最容易觉察,最自然的语音单位,是语音的基本结构单位,由一个或多个音素构成。音素是语音的最小单位。任何语言的语音都包括元音和辅音两种音素。元音是由声带振动产生的语音。元音的性质由声道的形状和尺寸所决定。辅音是由肺

6、呼出的气流克服发音器官的阻碍产生的。汉语的一个音节由声母、韵母和声调构成。声母都是由辅音充当的,但辅音不一定都是声母。汉语中共有22个辅音,其中21个可以充当声母。韵母可以由元音充当,也可以由复合元音充当,还可以由元音加上鼻音充当,所以汉语中共有39个韵母。 语音信号的数字化 语音信号的数字化是信号处理的前提条件,一般包括两个步骤:采样和量化。根据奈奎斯特采样定理,采样频率必须大于或等于信号最高频率的2倍,这样才能完整的保留原始信号中的信息。又由于语音信号的频谱分量主要集中在300一3400Hz范围内,所以在应用中一般使用的采样频率为:5KHz,10KHZ或16KHz。为了抑制输入信号频谱分量

7、中频率超过1/2采样频率的分量,以防止混叠失真,在采样之前需要对语音信号作低通(反混叠)滤波,然后再进行A/D转换,如下图。采样之后要对语音信号进行量化,量化后的取值与信号的实际值之间的差值成为量化误差。目前,我们一般采用8bit量化。 语音识别系统的分类 语音识别主要有以下几种不同的分类方式: 1)根据识别的词汇量的大小来分。每一个语音识别系统都必须有一个词汇表,系统只能识别词汇表中有的词条,词汇表之外的词条则无法识别。通常根据词汇表中词条的数目,语音识别系统可以分为:小词汇量语音识别系统,通常包括几十个词条;中等词汇量语音识别系统,通常包括几百到上千个词条;大词汇量语音识别系统,通常包括几

8、千到几万个词条。系统的识别率随着词汇量的增加下降,语音识别的难度随着词汇量的增加而逐渐增加。 2)根据发音方式分,语音识别系统可以分为:孤立词 (Isolated Word)语音识别系统,该系统要求输入的语音只能是一个个的孤立的音节、词或是短语等;连接词(C onnected Word)语音识别系统,该系统的输入一般特指十个数字( 0一9)连接而成的多位数字或是少数指令构成的连接词条;连续语音(Continuous Speech)识别系统,该系统可以对说话人的日常讲述进行识别。三种识别难度逐次增加。 3)根据说话人的限定范围分,语音识别系统可以分为特定人(Speaker Dependent)和

9、非特定 (Speaker Independent)人语音识别系统。前者只能识别某个固定人的语音,其他想要使用该系统的人必须事先录入大量的语音数据进行训练,之后才可以使用。而后者则对说话人没有特定的要求,但是它的实现也要难上许多。 说话人识别技术发展概述 经过几十年的发展,说话人识别技术的研究已经取得了很大的进步。作为语音识别的一个重要研究领域,说话人识别的研究始于20世纪30年代。早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。在七十年代初期,大多数说话人识别系统都是基于频谱和模板匹配方法实现的,而其普遍采用的特征矢量是L

10、PC倒谱系数(LPCC)。到七十年代后期,动态时间规整(DTW)和矢量量化(VQ)开始被应用到说话人识别中,使说话人识别的性能有了很大的提高。八十年代以来,Mel频率倒谱系数的出现,使说话人识别的正确率有了进一步的提高。与此同时,人工神经网络(ANN)和隐马尔可夫模型(HMM)在语音识别领域得到了成功和广泛的应用,并且成为说话人识别的重要技术。进入九十年代后,特别是Reynolds对高斯混合模型(GMM)做了详尽的介绍之后,因其描述语音特征空间概率分布的精确性以及简单、灵活、有效和较好的鲁棒性,迅速成为当今与文本无关的说话人识别中的主流技术。由于具有良好的区分性,近年来备受关注的支持向量机(S

11、VM)也开始用于说话人识别的建模,并迅速成为研究热点,并且出现了多种用于说话人识别的核方法。 近年来,大量说话人识别新技术的出现,将说话人识别带入到一个新的发展阶段。如在端点检测方面,提出了利用子带谱熵来检测语音信号与噪声的新方法,其性能明显优于传统算法。在语音信号增强方面,提出了与信噪比相关的自适应语音增强算法,有效地减少了传统谱减法中存在的音乐噪声。在特征参数提取方面,对传统的MFCC参数作了一系列改进,例如在提取参数前对语音数据进行频率掩蔽滤波,对MEL滤波器组进行加权处理,对得到的MFCC参数进行倒谱提升或倒谱均值相减,在MEL子带域对MFCC参数进行改进,将MEL倒谱和差分MEL倒谱

12、相结合以及MFCC与表征语音其它信息的参数的组合等,所有这些技术的运用均在不同程度上提高了语音特征参数表征语音信息的能力,并在很大程度提高了参数的抗噪声性能,为系统从实验室走向实际应用提供了技术支持。GMM-UBM结构、大规模连续语音识别(LVCSR)、HMM、ANN、SVM及各种模型之间的组合(如GMM-SVM)、基于评分的说话人规整技术、语音高层信息的探讨、以及针对通道失配问题的补偿技术等也均应用于与文本无关的说话人识别。 由于说话人识别技术的不断完善,相应的商用系统已从实验室走向市场。如一些关键部门的出入控制、电话语音交易的身份验证、公安司法、军事上电话语音的监听、语音数据流中的说话人检

13、测等均使用了说话人识别系统。在国外,AT&T公司运用说话人识别技术研制出了智慧卡,并已经应用于自动提款机。欧洲电信联盟在电信与金融结合领域应用说话人识别技术,于1998年完成了CAVE计划,可在电信网上进行说话人识别。2007年,美国科学家为行动不便的人设计了一个受声音控制的房屋,它可以对主人所发出的声音命令进行解释并执行,如可以利用命令OPEN COMPUTER来打开电脑等。所有这些都意味着语音识别正逐步从实验室走向实际应用。 我国对说话人识别技术的研究也非常重视,其主要研究机构有中科院声学所、中科院自动化所、清华大学、北京大学、北京交通大学信息科学研究所等,并先后得到了国家自然科学基金重点

14、项目、攀登计划等基金的支持,取得了丰硕的研究成果。例如:北京大学视觉与听觉信息处理国家重点实验室,受到国家自然科学基金及863计划的支持,其说话人识别技术的研究代表着国内的先进水平;中国科学院自动化所模式科技公司推出的PATTEKSV声纹识别产品,将声纹鉴别软件和其核心识别引擎集成在一起,具有良好的识别性能。同时,中国科学院自动化所研制的电话身份认证系统集成了基于声纹的身份认证技术和语音识别技术,通过一个电话语音对话系统与用户交流,在人机语音对答的过程中在后台进行用户的身份认证;北京得意音通公司在国际上率先推出的声纹S锁,利用人类具有唯一性声纹这个主要的生物特征,把声纹识别技术和数据安全技术紧

15、密结合在一起,对个人电脑甚至服务器中的重要数据进行双重安全认证,有效地保证了数据的安全性。我国在语音信号处理方面的逐渐成熟,为说话人识别从理论走向实际应用打下了坚实的基础。 与文本无关的说话人识别 说话人识别按照说话内容的类型可以分为与文本有关和与文本无关两种形式。前者要求说话人提供指定语义内容的语音,可以用在使用者比较配合的场合,并且语义内容可以作为说话人身份的补充信息来提高系统的识别性能,后者则不关心语音信号中具体的语义内容。一般说来,与文本无关的说话人识别的应用更为灵活和广泛,但难度较大,而且训练和测试都需要较长的语音和音素内容丰富的文本。与文本无关的说话人识别的基本流程为:(1) 对输

16、入的语音信号进行预处理;(2) 提取所需特征参数;(3) 将所提取的特征参数与已有的说话人识别模型进行相似性评估,然后根据评估结果对待识别说话人的身份作相应判断。由此可以看出,说话人识别可分为两个环节:说话人辨认和说话人确认。前者是要辨认待识别的人来自若干人中的哪一位,需要将待识别语音与每一位说话人的模型进行匹配,取输出概率最大者作为辨认结果。后者是确认说话人的身份,即做出是与否的判决,此时需要确定是与否的门限。 研究重点及难点 说话人识别技术的基本步骤可分为:语音信号的预处理、特征提取、建模、根据相似性准则进行判定。要提高说话人识别的正确率,应从以上几个方面进行研究。其中特征提取和模型建立是

17、说话人识别技术研究的重点,其系统性能的优劣往往取决于这两方面。虽然说话人识别技术已经取得了长足的发展,在理论上已获得众多的突破,各个研究机构也都成功的开发出了自己的说话人识别系统,但要使其普遍、并像指纹识别一样成为十分可靠的生物特征识别技术而得到广泛应用,还有许多尚需进一步探索的研究课题及要攻克的难题。这主要是由于说话者本身发音的不稳定性、语音信号的复杂性、实际应用环境的多变性等造成的。例如,随着时间的变化,说话人的声音相对于模型来说要发生变化,所以要采用对说话人的标准模板或模型进行定期更新的技术。更重要的是,对存在各种噪声的实际环境下的说话人识别技术,目前还没有得到充分的研究。下面列举说话人

18、识别技术中存在的一些难点。 (1) 语音信号具有不稳定性,因此提取的说话人特征不是固定不变的,它与说话人所处的环境、情绪、健康状态等密切相关。其次,语音信号中除包含实际发音内容的语音信息外,还包括发音者是谁及喜怒哀乐等各种表征说话人个性特征的信息,如何从语音信号中提取纯粹的仅反映说话人个性的特征参数,这到目前为止还是一个无法解决的难题。 (2) 声音容易被他人模仿。在某些场合中,这个问题具有特殊的重要性。例如有人可能模仿他人的声音从而冒充他人进行一系列非法活动。这个问题在司法领域和安全领域尤为突出。 (3) 在实际应用中,识别系统所处的外界环境也是随时改变的,即周围的噪声我们并不能完全提前预知

19、。因此,研究如何使系统的抗噪声性能不受周围噪声变化的影响,即研究如何使模型能够对周围的噪声进行自适应也是一个十分重要的课题。 (4) 寻求更有效的识别算法问题。包括如何提高GMM模型算法的训练和识别速度的问题,提高GMM模型参数的精度问题,提高训练语音长度与模型混合度不匹配的问题,提高模型的区分性的问题。 (5) 怎样消除由于环境的加性噪声、通道的卷积噪声、说话人自身的语音声学的变异、训练环境和测试环境的差异等因素导致的对识别结果的影响。这个问题关系到与文本无关的说话人识别系统能否得到推广。 语音信号的预处理 在说话人识别系统中,我们需要对语音信号进行分析,提取能够表征语音信息的特征参数。在提

20、取之前,对语音信号进行预处理是一项必不可少的关键工作,它直接关系到所提取特征参数的精度。 语音信号的预处理过程一般包括预加重,归一化,加窗分帧和端点检测等几个步骤。具体的过程如下图所示。 预加重 由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程衰落,所以对于求得的语音信号频谱,频率越高相应的成分就越少,为此要在语音预处理中进行预加重处理。预加重处理的目的是提升高频部分,使信号的频谱变得平坦,以便于频谱分析或声道参数分析。 一般语音识别系统采用一阶数字滤波器进行预加重,它的传递函数为: 分帧加窗 语音信号是一种非平稳的时变信号,其特性及表征其本质特征的

21、参数均是随时间变化的,所以不能用处理平稳信号的处理技术对其进行分析处理。但是,由于语音的形成过程是与人的口腔肌肉运动密切相关,而这种口腔肌肉运动相对于声音振动速度来讲要缓慢得多,所以在一个极短时间范围内(10- 30ms),其特性可认为是基本保持不变的。因此语音信号通常可假定为短时平稳的,即语音信号具有短时平稳性,这是语音信号处理的一个重要基础。在预处理过程中,我们就需要把语音信号分成一段一段的,其中每一段称为一帧,帧长一般取10-30ms。 分帧时,为了使帧与帧之间平滑过渡,保持其连续性,一般采用交替分段的方法。前一帧与后一帧的交叠部分称为帧移,帧移与帧长的比值范围一般取为0-1/2(即帧与

22、帧之间最多有一半重叠)。 为了减小语音帧的截断效应,即对截断处的不连续变化进行平滑,减少泄漏,我们一般对语音帧进行加窗处理,即用一定的窗函数w (n)来乘语音信号x(n),从而形成加窗语音信号。 窗函数w(n)的选择(形状和长度)对于短时分析的参数特性影响很大。为此应选择合适的窗函数,使其短时参数能够更好地反映语音信号特性的变化。不同的短时分析方法以及求取不的语音特征参数对窗函数的要求不尽一样。一般来讲,一个好的窗函数的标准是:在时域因为是语音波形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以使截取出的语音波形缓慢降为零,减小语音帧的截断效应。在频

23、域内要有较宽的3dB带宽以及较小的边带最大值。 在语音信号处理中常用的窗函数是矩形窗和汉明窗,它们的表达式如下(其中N为帧长): 对矩形窗和汉明窗的频率特性进行比较可知,汉明窗的主辨宽度和带外衰减都比矩形窗大。矩形窗损失了高频成分,使波形细节丢失,而汉明窗则相反。因此,汉明窗比矩形窗更为合适。 端点检测 端点检测是语音分析中重要的组成部分,其在语音信号处理中一直有着重要的意义。语音端点检测的准确性对于语音识别系统的性能有着较大的影响。有效的端点检测不仅可以在语音增强时进行准确的噪声模型估计,去除背景噪声的干扰,而且能够有效降低系统的运算复杂度,使得处理时间减少,提高了系统的实时性,从而大大提高

24、系统的识别性能。 在过去的十几年里,研究人员一直致力于该方面的研究,提出了多种语音端点检测算法,如:基于信号短时能量和过零率的双门限端点检测算法、基于子带谱熵的端点检测算法、基于频带方差的端点检测算法、基于高斯统计量的端点检测算法等。 基于短时能量和过零率的双门限端点检测算法 一、语音信号的短时能量分析 能量是语音信号在时域的一个重要的特征,对语音的能量进行分析是区分语音有声段和无声段的一个重要手段,此外其还经常被用于区分噪音、清音段和浊音段。语音的短时能量定义如下: 二、语音信号的短时过零率分析 短时过零率表示一帧语音中语音信号波形穿过零电平的次数,表现在离散信号序列上就是相邻两个采样值异号

25、,其定义如下: 由定义可以看出,短时过零率对噪音的干扰非常敏感,如果背景中有反复穿过零点的随机噪声,那么将会产生大量的虚假过零点,从而影响计算结果。为了解决这个问题,我们通常对零率进行修正,使其穿越某个门限而非零点才认为是一次过零,从而很好的避免了这个问题。修正后的符号函数定义如下: 三、双门限端点检测算法 语音信号分为清音和浊音,其中浊音具有能量高、过零率低的特点,可用短时能量特征与噪声进行区分。而清音具有能量低、过零率高的特点,可用短时过零率进行区分。因此,基于短时能量和过零率相结合的检测算法可以很好的区分语音和噪声。下面介绍基于短时能量和过零率的双门限端点检测算法,其基本过程描述如下:

26、首先为短时能量和过零率分别确定两个门限。一个是比较低的门限,其数值比较小,对信号的变化比较敏感,很容易被超过。另一个是比较高的门限,数值比较大,信号必须达到一定的强度,该门限才可能被超过。低门限被超过未必就是语音的开始,有可能是时间很短的噪声引起的。高门限被超过则可以基本确定是由语音信号引起的。 整个语音信号的端点检测可以分为四段:静音段、过渡段、语音段、结束。在静音段,如果能量或过零率超越了低门限,就应该开始标记起始点,进入过渡段。在过渡段中,由于参数的数值比较小,不能确信是否是真正的语音段,因此只要两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态,而如果在过渡段中两个参数中的任

27、意一个超过了高门限,就判断为进入了语音段。 一些突发噪声也可能因为短时能量过高而超过高门限值,但是往往不能够维持足够长的时间,因此可以通过设定最短时间门限来判别。当前状态处于语音段时,如果短时能量的数值降低到低门限以下,而且总的记时长度小于最短时间门限,则认为是一段噪音。 这种算法在高信噪比条件下可以准确检测出语音信号的端点,但在信噪比较低时其性能迅速下降,不适合在实际环境中应用。 四、基于信息熵的端点检测算法 由于上述端点检测算法是基于短时能量和过零率的,而这两个参数易受噪声影响,从而影响了端点检测的效果。 为此,Shen 等人提出了基于信息熵的端点检测方法。信息熵是对信号随机性的一种描述。

28、信号的随机性越高,信息熵越大。由于噪声信号随机性较强,谱分布比较平坦,谱熵较大,而语音信号则相反,因此可利用其差异区分语音和噪声。而且,从理论上来说,如果语音的谱分布保持不变,那么语音的谱熵就不会受能量幅值的影响,因此谱熵参数具有一定的抗噪声能力。所以后来的许多学者都采用谱熵与其它语音特征参数相结合的方法进行端点检测。 一、 Shannon 熵 设信号x (n) 的 N 点 FFT 为X (k ) ,则其每个频率分量的归一化谱密度函数为 则x (n )的 Shannon 熵可表示为 二、 Renyi 熵 Renyi熵是Shannon熵的广义形式,它对谱窗的微小变化较为敏感,其定义如下: 与Sh

29、annon熵相比,Re nyi熵可以更好的区分语音成分与非语音成分,这是因为参数 有效地削减了低能量在Renyi熵中的贡献,使其具有更强的区分性。 虽然谱熵参数对噪声具有一定的鲁棒性,但是语音信号每个频谱点上的幅度易受噪声的干扰,在更低的信噪比下该参数的性能会有所下降。因此,实际中多以子带能量为单位计算谱熵。研究研究证明,对大多数噪声而言,即使在信噪比很低的情况下,语音帧中仍然存在信噪比较高的子带,而噪声帧则不具备这个特点。因此,以子带能量为单位计算谱熵不仅解决了单个频点易受噪声影响的问题,而且充分利用了受噪声影响不大的子带,具有更好的鲁棒性。 虽然基于子带能量的谱熵参数具有较强的抗噪声能力,

30、但将它单独用于端点检测仍有一定的不足之处。当噪声和语音的谱分布近似时,两者的谱熵值近似,此时谱熵参数不能可靠地检测到语音端点,需要对此算法进行修正。 基于能量-Renyi 熵参数的端点检测 在上述算法的基础上,将短时能量和 Renyi 熵的结合能量- Renyi 熵参数用于端点检测。该参数既具有短时能量和 RE 参数的优点,同时又补偿了两者的缺点,而且包含了更多的信息,因此具有较好的性能。 能量- Renyi熵(ERE )参数的表达式可由下式来定义: 算法流程如下: (1) 由于语音信号的起始10帧可以看成是由纯噪声信号构成的,所以我们可以利用起始10帧来估计噪声信号的短时能量,语音信号的增强

31、 人们在语音通信过程中不可避免的会受到来自周围环境和传输媒介引入的噪声、通信设备内部电噪声乃至其他讲话者的干扰。这些干扰最终将使接收者接收到的语音己非纯净的原始语音信号,而是受噪声污染的带噪语音信号。若语音识别系统处在强噪声环境中,其识别率将会受到严重影响,以致无法工作。因此,我们通常将语音增强作为一种预处理方式来抑制背景噪声,提高语音质量。通过语音增强后,我们可以得到较为纯净的语音信号,可以极大地提高系统在噪声环境中的识别率。因此,语音增强在说话人识别系统中起着举足轻重的作用,它是说话人识别系统走向实用的关键。 语音增强方法简述 一、噪声对消法 噪声对消法的基本原理是从带噪语音信号中直接减去

32、噪声,它需要采集背景噪声作为参考信号(一般需要2个以上麦克风以便采集背景噪声数据)。参考信号准确与否直接决定着噪声对消法的性能。在采集背景噪声时,通常采用自适应滤波技术,这可以使参考信号尽可能接近带噪语音中的噪声分量。 二、谱减法 谱减法主要是对带噪语音信号进行傅里叶变换,在频域减去噪声的频谱。主要有幅度谱减法,功率谱减法及增强型谱减法等。 谱减法因其简单有效而被认为是迄今为止最实用的语音增强算法而得到了广泛的应用。它是从带噪语音频谱估值中减去噪声频谱估计,从而得到纯净语音的频谱。 设带噪语音模型为 x (n ) = s (n ) + d (n),则其频域表示为X (k ) =S (k) +

33、D (k ),由假设可知,语音和噪声的频谱分量是统计独立的高斯随机变量,因此有: 由此可得原始语音频谱的估计值: 从式2-22中可以清楚地看出谱相减的物理意义:它相当于对带噪语音的每一个频谱分量乘以一个系数G k。信噪比高时,含有语音的可能性大,衰减小。反之,则认为含有语音的可能性小,衰减大。 该方法的缺点是增强后的语音中含有明显的音乐噪声,这是由频谱相减而产生的一种残留噪声,具有一定的节奏起伏感,故而得名音乐噪声。音乐噪声产生的原因是因为在谱相减法过程中,由于对噪声的估计有一定的偏差,因此相减时,若该帧某频率点噪声分量较大,就会有很大一部分保留,在频谱上呈现随机出现的尖峰,在听觉上形成有节奏

34、性起伏的类似音乐的残留噪声。 因此,在实际应用中,更多的是采用谱减法的各种改进形式,如: 这里引入了两个参数 和 来调节增益。显然,当 = 2, =1时就是功率谱相减法。增大 可以增大去噪程度,这样就能减少剩余的噪声,从而减弱音乐噪声。调节 也会有相似的效果。通过适当调节这两个参数可以达到比较好的增强效果。但过多增加去噪程度会使增强后的语音失真增大。 三、维纳滤波法 维纳滤波法是用维纳滤波器对语音信号进行滤波处理,这种滤波器是在最小均方误差准则下得到的最优估计器。 四、语音参数模型法 语音的发声过程可以看作是一个线性时变滤波器。对不同类型的语音采用不同的激励源。如对于浊音,可以使用周期与基音周

35、期相同的脉冲串来模拟激励;对于清音,可以使用高斯白噪声来模拟。在语音的生成模型中,应用最广泛的是全极点模型。基于语音生成模型可以得到一系列语音增强方法,例如卡尔曼滤波,它能有效消除有色噪声,是一种很好的语音增强方法。 近些年又涌现出一些新的语音增强方法,如隐马尔可夫模型方法、神经网络方法,信号子空间方法、基于听觉掩蔽效应的增强算法以及基于EM算法的语音增强等。 噪声参数的估计 语音增强中首先要利用噪声的特性参数,噪声估计的准确性对后续的增强算法有重大的影响,因此预先准确地估计出噪声参数对语音增强的好坏十分重要。在噪声估计时通常假设噪声的均值为零,需要估计的参数就是噪声的方差。噪声的估计方法很多

36、,一种做法是对语音信号进行有声/无声检测,在无声时更新噪声估计,在有声时保持原有噪声的估计不变。另一中方法不用有声/无声的检测,无论在有声或无声都对噪声估计进行更新,如Martin提出的基于最优平滑和最小值统计跟踪的噪声功率谱估计算法。 采用第一种方法进行噪声估计,即在无声段对噪声估计进行更新,在语音段不更新。 设第 i帧带噪语音信号为 ,其N 点DFT 为,则噪声的功率谱估计式为: 信噪比的估计 信噪比的估计在语音增强算法中有着十分重要的作用,它的准确性直接关系到语音增强的实际效果。精确的信噪比估计可以有效地减少音乐噪声和失真。因此,一个好的信噪比估计方法将会极大的提高语音增强算法的性能。

37、下面所使用的信噪比估计方法基于这样一种假设,即语音和噪声的频谱分量是统计独立的高斯随机变量(Ephraim 和 Malah 于20多年前提出),并充分利用了语音帧之间的相关性。下面直接给出其表达式。 则有 语音特征参数 在语音信号中,包含着非常丰富的特征参数,如前文所提到的短时能量,短时过零率等,这些都是属于时域分析的参数。在语音信号处理中,还有频域特征参数、基于发声系统模型得到的特征参数、基于听觉系统模型导出的特征参数。要想完整的描述一段语音,需要在检测到语音的起点以后再对信号进行处理,从原始语音信号提取对说话人识别有用的特征参数,去除对说话人识别无用的冗余信息,减少后续识别阶段需处理的数据

38、量。在说话人识别的研究中,一个主要的问题是如何寻找一种特征参数,可以用尽可能少的数据来表示语音信号内在的变化。选择好的特征参数,不仅能减少计算量,而且将有助于提高系统的识别率。 由于大多数情况下,语音信号都能在频域中被准确地区分开来,因此现有的语音特征通常与语音的频谱相关。特征的选取对识别效果有很大的影响,它是语音识别系统成功的关键。一个好的特征参数应该具有以下特点: (1) 能有效代表语音的特征,包括声道特性和听觉特性。 (2) 各阶参数之间应该具有良好的独立性。 (3) 能够有效的区分不同的说话人,但又能在说话人的语音发生变化时保持相对稳定。 (4) 尽量不随时间和空间变化,对环境的适应性

39、较强。 (5) 特征参数应该易于从说话人的语音信号中提取和计算,最好有高效的计算方法,以保证说话人识别系统的实时实现。 语音特征参数是分帧提取的,每帧特征参数一般构成一个矢量,因此语音特征量是一个矢量序列。特征参数提取的好坏直接影响着语音识别系统的识别率,对特征选择的标准应尽量满足:(1)能有效代表语音特征,包括声道特征和听觉特征,具有很好的区分性;(2)各阶参数之间有良好的独立性;(3)特征参数要计算方便,最好有高效的计算方法。 一般用来在说话人识别系统中作为个性语音参数的有基音周期、线性预测系数(LPC)、声道的冲击响应、自相关系数、声道面积系数、线性预测倒谱系数(LPCC)、Mel频率倒

40、谱系数(MFCC)等。在与文本无关的说话人识别中,说话人语音特征一般用倒谱参数表征。倒谱系数是目前普遍使用的说话人特征参数。其中最常用的是LPCC参数和MFCC参数。 线性预测系数 LPC 及其倒谱 LPC特征及由其衍生得到的其他语音参数就是通过研究语音信号的产生机制得到的特征参数。通常认为LPC特征是对发音瞬间人体声道的物理状态的良好估计,因此这种特征非常适合说话人识别。用于说话人识别的其它各种高级特征参数都是以LPC特征为理论基础的。 LPC 参数的原理及提取: 线性预测的基本思想是:由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在和未来样点值,即一个语音的抽样能够用过去若干个

41、语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数,而这组预测系数就反映了语音信号的特性,可以作为语音信号的特征参数来使用。将线性预测应用于语音信号处理,不仅是因为它的预测功能,而更重要的是因为它能提供一个非常好的声道模型及模型参数估计方法。线性预测系数(LPC)是描述语音信号特征非常重要的参数之一。 由于线性预测是和语音信号数字模型密切相关的。如下图所示,可以用准周期脉冲(在浊音语音期间)或白噪声(在清音语音期间)激励一个线性时不变系统(声道)所产生的输出作为语音的模型。 由 s (n )求取e (n ) 和h (n)的算

42、法称为解卷积法。它分为两类:一种是非参数解卷算法,例如同态信号处理。还有一种就是参数解卷算法,首先为线性系统H (z)建立一个模型,然后对模型的参数按照某种最佳准则进行估计。实际上H (z )一般为全极点模型,因为相比其他模型,它有以下优点: (1) 容易计算,对全极点模型作参数估计是对线性方程组的求解过程,相对来说比较容易。 (2) 如果不考虑鼻音和摩擦音,那么语音的声道传递函数就是一个全极点模型。而对于鼻音和摩擦音,细致的声学理论表明其声道传输函数既有极点又有零点,但这时仍然可以使用全极点模型对零极点模型进行逼近,即若全极点模型的阶数 p 足够高,可无限逼近零极点模型。 声道传输函数可表示

43、为: 即语音样点间有相关性,可以用过去的样点值预测未来样点值。对于浊音,激励e (n) 是以基音周期重复的单位脉冲序列。对于清音,e (n )是一个高斯白噪声序列。 在信号分析中,模型的建立实际上是用信号来估计模型参数的过程。因为信号是客观存在的,因此用模型表示是不可能完全准确的,总是存在误差。且极点阶数 p 无法事先确定,可能选得过大或过小,再加上信号是时变的,因此求解模型参数的过程是一个逼近过程。 在模型参数估计过程中,把如下模型称为线性预测器: 因此用线性预测对语音信号进行解卷实际上是把激励分量归入预测残差中,得到声道响应的全极点模型H (z)的分量,从而得到这个分量的ai 参数。 线性

44、预测分析要解决的问题是:给定语音序列,使预测误差在某个准则下求预测系数ai 的最佳估值,这个准则通常采用最小均方差误差准则。 短时均方预测误差定义如下: 使该式最小,即可得到ai 的最佳估计值。 LPCC 参数原理及提取 线性预测倒谱系数(LPCC)是基于语音信号为自回归信号的假设,利用线性预测分析获得倒谱系数的一种倒谱特征。因为一般 8-32 维的 LPCC 就可以较好的表征声道特性,所以 LPCC 在各种说话人识别系统中得到广泛的应用。 在语音信号的线性预测模型中,声道的传递函数可写为 由于声道及音源激励分量所处的时段不同,故它们已被分离,彼此互不干扰,尤其是避免了声道分量受具有随机性变化

45、的音源激励分量的干扰,因此LPCC参数具有很好的噪声鲁棒性。然而LPCC同时也继承了LPC的缺陷,也就是LPC在所有的频率上都是线性逼近语音的,而这和人的听觉特性是不一致的,而且LPC包含了语音高频部分的大部分噪声细节,这些都会影响系统的性能。 MFCC 及其衍生参数 LP模型是基于语音发音机理的,描述的是声道特性。LPCC系数是基于合成的参数,这种参数虽然有较好的识别性能,但是抗噪声能力较差。因此目前广泛应用于文本无关的说话人识别中的特征参数是基于人的听觉感知特性的Mel频率倒谱系数MFCC。人的听觉系统是一个特殊的非线性系统,它对不同频率信号的响应是不同的,而且基本上是呈现一种对数关系。而

46、MFCC能够充分利用人耳的感知特性,并且和语音的产生机制相给合,因此在抗噪声性能和提高系统的识别率方面均优于LPCC。 MFCC 参数的原理及提取 MFCC参数的原理:人耳在嘈杂的环境及各种变异情况下仍能正常地分辨出各种语音,其关键因素之一就是耳蜗对输入语音信号的调节作用。耳蜗实质上相当于一个滤波器组,它的滤波作用是在非线性频率尺度上进行的,即在1000 Hz 以下为线性尺度,而1000 Hz 以上为对数尺度。根据这一原则,研究者根据心理学实验构造了类一组滤波器组来模拟人耳所听到的声音高低与声音频率之间的非线性关系。 MFCC的提出主要是基于以下两点研究成果:首先,人类对单个音调的感知强度近似

47、与该音调频率的对数成正比。Mel频率表达了这种语音频率与感知频率之间的对应关系。在Mel频率域内,人对音调的感知为线性关系。Mel频率与线性频率的转换公式为: 其次,人类并不能有效地分辨所有的频率分量。只有当两个频率分量相差一定带宽时,人类才能将其区分。这个带宽被称为临界带宽(Critical Band Width),其计算公式如下: 根据上述两点便可以构造临界频带滤波器组来模仿人耳的听觉感知特性。临界频带滤波器组的中心频率在Mel频率域内呈线性分布,带宽在临界带宽之内。 通常情况下,临界频带滤波器组是采用三角滤波器组来逼近的。它的构造方式如下: (1) 首先,将语音信号频率转换到Mel频域内

48、后在Mel频标内等间隔选取 M 个点。 (2) 转换至语音信号频率域。设在Mel频域内选取后转换至语音频率域的频点MFCC参数的提取:MFCC参数的求取过程就是预处理过后的语音频域参数通过临界滤波器组,然后转换到倒谱域的过程,其流程为: (1) 对采样后的语音信号进行预处理,包括:预加重、分帧加窗、端点检测、语音增强。 (2) 将预处理后输出的语音频谱幅度求平方,然后通过三角滤波器组进行滤波处理。为了提高MFCC参数的区分能力和抗噪声性能,可以对滤波器组进行加权分析。 MFCC参数的提取流程如下图所示: 特征参数组合结构 我们知道,不同的特征参数含有不同的特性信息。声音的音色、音高等各种信息中

49、具包含有说话人的个性特征,而这些个性特征并不能用一个特征参数来完全表征。因此我们可以利用不同特征参数的组合来表征更多的说话人信息以提高系统的识别率。通过把不同的特征参数进行整合,互补不同参数的性能,用一个特征向量就可以较为全面的表征说话人的信息。一般来说,如果组合的多个参数向量之间的相关性不大,则会更有效一些,因为它们反映了语音信号截然不同的特征,使得得到的参数冗余度较小,这样的参数将会使系统更有效率。 MFCC参数是使用最为广泛的说话人特征参数,但是它只是较好的描述了声道传输函数的特点,并没有完整的描述语音信号的产生系统,而且它只反映了语音参数的静态特征,而人耳对动态的语音特征又比较敏感,因此可将MFCC参数与其他参数组合来弥补这些缺陷。 由于MFCC参数的一阶和二阶差分反映了语音信号的动态特征,它可以体现出特征向量随时间变化的趋势,并可在一定程度上抑制平稳噪声,因此它们的组合表征了语音信号的静态和动态特征,可以极大的提高说话人识别系统的识别率。MFCC 参数还可与一些表征其它信息的特征参数进行组合,如与 SC,SBW,SBE,RE的组合,它们均可在不同程度上提高系统的识别率。 说话人识别模型 说话人识方法概述 目前针对各种特征而提出的模式匹配方法的研究越来越深入,大致可归为三类: 第一类,距离匹配法,利用距离、均值、方差等统计量进行分类判决

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报