收藏 分享(赏)

数字语音信号的处理.doc

上传人:hskm5268 文档编号:7140865 上传时间:2019-05-07 格式:DOC 页数:37 大小:918KB
下载 相关 举报
数字语音信号的处理.doc_第1页
第1页 / 共37页
数字语音信号的处理.doc_第2页
第2页 / 共37页
数字语音信号的处理.doc_第3页
第3页 / 共37页
数字语音信号的处理.doc_第4页
第4页 / 共37页
数字语音信号的处理.doc_第5页
第5页 / 共37页
点击查看更多>>
资源描述

1、语音信号的特征提取作者:李杨 指导老师:詹恩奇摘 要语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的 应用和发展与语音学、声音测量学、电子测量技术以及数字信号 处理等学科紧密 联系。其中 语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快,分析速度较以往也有了大幅度的高。本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过 PC 机 录制自己的一段声音,运用 Matlab 进行仿真分析,最后加入噪声进行滤波处理,比较滤波前后的变化。关键词:语音信号,特征提取, MatlabAudio signal acquisition and anal

2、ysisAuthor: li yang Teacher guidance:zhan enqiAbstractSpeech signal acquisition and analysis techniques are a wide range of cross-scientific,Its application and development of voice study, sound measurement study, electronic measuring technology, and digital signal processing disciplines, such as cl

3、ose contact。Collection and analysis of voice one of the small-scale equipment, intelligence, digital and multi-functional development of more and more quickly, faster than the previous analysis has been substantially high。This paper introduces the voice signal acquisition and analysis of the history

4、 of the development, as well as the characteristics of speech signal,Collection and analysis methods,Recording machine through the PC section of my own voices,the use of Matlab for simulation analysis,finally add the noise filter to deal with,comparison of filter before and after Change。Keywords:aud

5、io signal, acquisition and analysis,MATLAB 目 录摘 要 Abstract.目 录 1 绪 论 1.1 课题的背景与意义 1.2 国内外研究现状 1.3 本文主要工作 1.4 本文的仿真软件 Matlab2 语音信号的特点与采集 2.1 语音信号的特点 2.2 语音信号的采集 .3 语音信号的分析 3.1 基于 MATLAB 的语音信号时域特征分析 .3.2 基于 MATLAB 的语音信号时域特征分析 .3.3 基于 MATLAB 的语音信号 LPC 分析 .总 结 致 谢 参 考 文 献 附录一: 附录二: 附录三: 1 绪 论1.1 课题的背景与意

6、义通过语音传递倍息是人类最重要、最有效、最常用和最方便的交换信息的形式。语言是人类持有的功能声音是人类常用的工具,是相互传递信息的最主要的手段。因此,语音信号是人们构成思想疏通和感情交流的最主要的途径。并且,由于语言和语音与人的智力活动密切相关,与社会文化和进步紧密相连,所以它具有最大的信息容量和最高的智能水平。现在,人类已开始进入了信息化时代,用现代手段研究语音信号,使人们能更加有效地产生、传输、存储、获取和应用语音信息,这对于促进社会的发展具有十分重要的意义。让计算机能听懂人类的语言,是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向发展,随着计算环境的日趋复杂化,人们越来

7、越迫切要求摆脱键盘的束缚而代之以语音输人这样便于使用的、自然的、人性化的输人方式。作为高科鼓应用领域的研究热点,语音信号采集与分析从理论的研究到产品的开发已经走过了几十个春秋并且取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望成为下一代操作系统和应用程序的用户界面。可见,语音信号采集与分析的研究将是一项极具市场价值和挑战性的工作。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走人人们的日常生活当中,并不断朝更高目标

8、而努力。语音信号采集与分析之所以能够那样长期地、深深地吸引广大科学工作者去不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学中最活跃的前沿学科保持密切的联系并且一起发展。语音信号采集与分析是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科,与心理、生理学、计算机科学、通信与信息科学以及模式识别和人工智能等学科都有着非常密切的关系。对语音信号采集与分析的研究一直是数字信号处理技术发展的重要推动力量。因为许多处理的新方法的提出,首先是在语音信号处理中获得成功,然后再推广到其他领域。1.2 国内外研究现状语音信号的采集与分析作为一个重要的研究领域,

9、已经有很长的研究历史 1。但是它的快速发展可以说是从 1940 年前后 Dudley 的声码器(vocoder)和 potter 等人的可见语音Visible Speech)开始的。1952 年贝尔(Bell)实验室的 Davis 等人首次研制成功能识别十个英语数字的实验装置。1956 年 Olson 和 Belar 等人采用 8 个带通滤波器组提取频谱参数作为语音的特征,研制成功一台简单的语音打字机。20 世纪 60 年代初由于 Faut 和 Steven 的努力,奠定了语音生成理论的基础,在此基础上语音合成的研究得到了扎实的进展。 20 世纪 60 年代中期形成的一系列数字信号处理方法和技

10、术,如数字滤波器、快速博里叶变换(FFT)等成为语音信号数字处理的理论和技术基础。在方法上,随着电子计算机的发展,以往的以硬件为中心的研究逐渐转化为以软件为主的处理研究。然而,在语音识别领域内,初期有几种语音打字机的研究也很活跃,但后来已全部停了下来,这说明了当时人们对话音识别难度的认识得到了加深。所以 1969 年美国贝尔研究所的 Pierce 感叹地说“语音识别向何处去?” 。到了 1970 年,好似反驳 Pierce 的批评,单词识别装置开始了实用化阶段,其后实用化的进程进一步高涨,实用机的生产销售也上了轨道。此外社会上所宣传的声纹(Voice Print)识别,即说话人识别的研究也扎扎

11、实实地开展起来,并很快达到了实用化的阶段。到了1971 年,以美国 ARPA(American Research Projects Agency)为主导的“语音理解系统”的研究计划也开始起步。这个研究计划不仅在美国园内,而且对世界各国都产生了很大的影响,它促进了连续语音识别研究的兴起。历时五年的庞大的 ARPA 研究计划,虽然在语音理解、语言统计模型等方面的研究积累了一些经验,取得了许多成果,但没能达到巨大投资应得的成果,在 1976 年停了下来,进入了深刻的反省阶段。但是,在整个 20 世纪 70 年代还是有几项研究成果对语音信号处理技术的进步和发展产生了重大的影响。这就是 20 世纪 70

12、年代初由板仓(Itakura)提出的动态时间规整(DTW)技术,使语音识别研究在匹配算法方面开辟了新思路;20 世纪 70 年代中期线性预测技术(LPC)被用于语音信号处理,此后隐马尔可夫模型法(HNMM)也获得初步成功,该技术后来在语音信号处理的多个方面获得巨大成功;20 世纪 70 年代未,Linda、Buzo、Gray 和 Markel 等人首次解决了矢量量化(VQ)码书生成的方法,并首先将矢量量化技术用于语音编码获得成功。从此矢量量化技术不仅在语音识别、语音编码和说话人识别等方面发挥了重要作用,而且很快推广到其他许多领域。因此,20 世纪 80 年代开始出现的语音信号处理技术产品化的热

13、溯,与上述语音信号处理新技术的推动作用是分不开的。20 世纪 80 年代,由于矢量量化、隐马尔可夫模型和人工神经网络(ANN)等相继被应用于语音信号处理,并经过不断改进与完善,使得语音信号处理技术产生了突破性的进展。其中,隐马尔可夫模型作为语音信号的一种统计模型,在语音信号处理的各个领域中获得了广泛的应用。其理论基础是 1970 年前后,由 Baum 等人建立起来的,随后,由美国卡内基梅隆大学 (CMU)的 Baker 和美国 IBM 公司的 Jelinek 等人将其应用到语音识别中。由于美国贝尔实验室的 Babiner 等人在 20 世纪 80 年代中期,对隐马尔可夫模型深人浅出的介绍,才使

14、世界各国从事语音信号处理的研究人员了解和熟悉,进而成为一个公认的研究热点,也是目前语音识别等的主流研究途径。进入 20 世纪 90 年代以来,语音信号采集与分析在实用化方面取得了许多实质性的研究进展。其中,语音识别逐渐由实验室走向实用化。一方面,对声学语音学统计模型的研究逐渐深入,鲁棒的语音识别、基于语音段的建模方法及隐马尔可夫模型与人工种经网络的结合成为研究的热点。另一方面,为了语音识别实用化的需要,讲者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题倍受关注。 1.3 本文主要工作本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过 PC 机

15、录制自己的一段声音,运用 Matlab 进行仿真分析,最后加入噪声进行滤波处理,比较滤波前后的变化。第 2 章主要介绍语音信号的特点与采集,仿真主要是验证奈奎斯特定理。第 3 章主要是对语音信号进行时域、频域上的分析,如短时功率谱,短时能量,短时平均过零率,语谱图分析等等。最后是对语音信号的线性预测分析1.4 本文的仿真软件 MatlabMATLAB 是 美 国 MathWorks 公 司 出 品 的 商 业 数 学 软 件 , 用 于 算 法 开 发 、 数 据 可 视 化、 数 据 分 析 以 及 数 值 计 算 的 高 级 技 术 计 算 语 言 和 交 互 式 环 境 , 主 要 包

16、括 MATLAB 和 Simulink 两 大 部 分 4。MATLAB 是 矩 阵 实 验 室 ( Matrix Laboratory) 的 简 称 , 和 Mathematica、 Maple 并称 为 三 大 数 学 软 件 。 它 在 数 学 类 科 技 应 用 软 件 中 在 数 值 计 算 方 面 首 屈 一 指 。 MATLAB 可以 进 行 矩 阵 运 算 、 绘 制 函 数 和 数 据 、 实 现 算 法 、 创 建 用 户 界 面 、 连 接 其 他 编 程 语 言 的 程序 等 , 主 要 应 用 于 工 程 计 算 、 控 制 设 计 、 信 号 处 理 与 通 讯 、

17、 图 像 处 理 、 信 号 检 测 、 金融 建 模 设 计 与 分 析 等 领 域 。MATLAB 的 基 本 数 据 单 位 是 矩 阵 , 它 的 指 令 表 达 式 与 数 学 、 工 程 中 常 用 的 形 式 十 分 相似 , 故 用 MATLAB 来 解 算 问 题 要 比 用 C, FORTRAN 等 语 言 完 相 同 的 事 情 简 捷 得 多 , 并 且mathwork 也 吸 收 了 像 Maple 等 软 件 的 优 点 ,使 MATLAB 成 为 一 个 强 大 的 数 学 软 件 。 在 新的 版 本 中 也 加 入 了 对 C, FORTRAN, C+, JA

18、VA 的 支 持 。 可 以 直 接 调 用 ,用 户 也 可 以 将 自己 编 写 的 实 用 程 序 导 入 到 MATLAB 函 数 库 中 方 便 自 己 以 后 调 用 , 此 外 许 多 的 MATLAB 爱好 者 都 编 写 了 一 些 经 典 的 程 序 , 用 户 可 以 直 接 进 行 下 载 就 可 以 用 。2 语音信号的特点与采集2.1 语音信号的特点通过对大量语音信号的观察和分析发现,语音信号主要有下面两个特点:在频域内,语音信号的频谱分量主要集中在 3003400Hz 的范围内。利用这个特点,可以用一个防混迭的带通滤波器将此范围内的语音信号频率分量取出,然后按 8

19、kHz的采样率对语音信号进行采样,就可以得到离散的语音信号。在时域内,语音信号具有“短时性”的特点,即在总体上,语音信号的特征是随着时间而变化的,但在一段较短的时间间隔内,语音信号保持平稳。在浊音段表现出周期信号的特征,在清音段表现出随机噪声的特征。下面是一段语音信号的时域波形图(图 2.1)和频域图(图 2.2),由这两个图可以看出语音信号的两个特点。0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5-0.8-0.6-0.4-0.200.20.40.6Time(s) 0 0.5 1 1.5 2 2.5x 10400.050.10.150.20.250.30.350.40.45Fr

20、equency(Hz)图 2.1 语音信号时域波形图 图 2.2 语音信号频域波形图2.2 语音信号的采集在将语音信号进行数字化前,必须先进行防混叠预滤波,预滤波的目的有两个:抑制输入信导各领域分量中频率超出 fs/2 的所有分量(fs 为采样频率 ),以防止混叠干扰。抑制 50Hz 的电源工频干扰。这样,预滤波器必须是一个带通滤波器,设其上、下截止颜率分别是 fH 和 fL,则对于绝大多数语音编译码器,fH=3400Hz、fL60100Hz 、采样率为 fs8kHz;而对丁语音识别而言,当用于电话用户时,指标与语音编译码器相同。当使用要求较高或很高的场合时 fH4500Hz 或 8000Hz

21、、fL60Hz 、fs10kHz 或 20kHz。为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔t 在模拟信号 x(t)上逐点采取其瞬时值。采样时必须要注意满足奈奎斯特定理,即采样频率 fs 必须以高于受测信号的最高频率两倍以上的速度进行取样,才能正确地重建波它是通过采样脉冲和模拟信号相乘来实现的。下图时一段语音信号在采样频率 44.1KHz情况下的频谱图。0 1 2 3 4 5 6x 104-0.4-0.200.20.4 一一一一0 0.5 1 1.5 2 2.5x 1040

22、50100150200图 2.3 采样频率 44.1KHz 情况下的频谱图由图可知,这段语音信号的频率主要集中在 1KHz 左右,当采样频率为 44.1KHz 时,由于采样频率比较大,所以采样点数就越密,所得离散信号就越逼近于原信号,频谱也没有发生混叠。0 1 2 3 4 5 6x 104-0.200.20.40.6 一一一一一一0 5000 10000 1500011.522.53图 2.4 采样频率 500HZ 情况下的频谱图对上述信号进行 1/80 采样频率抽取,即采样频率变为将近 500Hz 时,由于采样频率比较小,所以采样点数就稀疏,所得离散信号就越偏离于原信号,频谱也发生了混叠。在

23、采样的过程中应注意采样间隔的选择和信号混淆:对模拟信号采样首先要确定采样间隔。如何合理选择t 涉及到许多需要考虑的技术因素。一般而言,采样频率越高,采样点数就越密,所得离散信号就越逼近于原信号。但过高的采样频率并不可取,对固定长度(T)的信号,采集到过大的数据量(N=T/t) ,给计算机增加不必要的计算工作量和存储空间;若数据量(N)限定,则采样时间过短,会导致一些数据信息被排斥在外。采样频率过低,采样点间隔过远,则离散信号不足以反映原有信号波形特征,无法使信号复原,造成信号混淆。根据采样定理,当采样频率大于信号的两倍带宽时,采样过程不会丢失信息,利用理想滤波器可从采样信号中不失真地重构原始信

24、号波形。量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示。量化电平按级数变化,实际的振动值是连续的物理量。具体振值用舍入法归到靠近的量化电平上。 语音信号经过预滤波和采样后,由 AD 变换器变换为二址制数字码。这种防混叠滤波通常与模数转换器做在一个集成块内,因此目前来说,语音信号的数字化的质量还是有保证的。市面上购买到的普通声卡在这方面做的都很好,语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D 变换、量化处理的离散的数字信号。在实际工作中,我们可以利用 windows 自带的录音机录制语音文件,图 2.5 是基于 PC机的语音信号采集过程,声卡可以完成语音波形的 A/

25、D 转换,获得 WAVE 文件,为后续的处理储备原材料。调节录音机保存界面的“更改”选项,可以存储各种格式的 WAVE 文件。Windows 自带的录音机声音 麦克风 声卡 滤波 采样 A/D 转换 Wav图 2.5 基于 PC 机的语音信号采集过程采集到语音信号之后,需要对语音信号进行分析,如语音信号的时域分析、频谱分析、语谱图分析以及加噪滤波等处理。3 语音信号的分析3.1 基于 MATLAB 的语音信号时域特征分析3.1.1 原理分析语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。语音信号分析的目

26、的就在与方便有效的提取并表示语音信号所携带的信息。语音信号分析可以分为时域和变换域等处理方法,其中时域分析是最简单的方法,直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量,短时平均过零率,短时自相关函数等。3.1.2 窗口的选择通过对发声机理的认识,语音信号可以认为是短时平稳的。在 550ms 的范围内,语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取 1030ms。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。图 3.1 给出了这两种窗函数在帧长 N=50 时的时域波形。0 20 40 6000.

27、20.40.60.811.21.41.61.82 一一一samplew一n一0 20 40 6000.10.20.30.40.50.60.70.80.91 hanming一samplew一n一图 3.1 矩形窗和Hamming窗的时域波形矩形窗的定义:一个N点的矩形窗函数定义为如下1,0()nNwn其 他hamming窗的定义:一个N点的hamming窗函数定义为如下0.54.6cos(2),01,()nNNn其 他=这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图3.2):矩形窗的主瓣宽度小(4*pi/N ) ,具有较高的频率分辨率,旁瓣峰值大(-13.3dB) ,

28、会导致泄漏现象;汉明窗的主瓣宽 8*pi/N,旁瓣峰值低( -42.7dB) ,可以有效的克服泄漏现象,具有更平滑的低通特性。因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。表 1.1 对比了这两种窗函数的主瓣宽度和旁瓣峰值。0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-80-60-40-200 一一一一一一一一一一一一 (f/fs)一一/dB0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1-100-500 Hamming一一一一一一一一一一 (f/fs)一一/dB图3.2 矩形窗和Hamming窗的频率

29、响应表3.1 矩形窗和hamming窗的主瓣宽度和旁瓣峰值3.1.3 短时能量由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。因此对语音的短时能量进行分析,可以描述语音的这种特征变化情况。定义短时能量为:,其中 N 为窗长 2 21()()nnmmNExwxw特殊地,当采用矩形窗时,可简化为:窗函数 主瓣宽度 旁瓣峰值矩形窗 4*pi/N 13.3dBhamming 8*pi/N 42.7dB2()nmEx图 3.3 和图 3.4 给出了不同矩形窗和 hamming 窗长的短时能量函数,我们发现:在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响。ham

30、ming 窗的效果比矩形窗略好。但是,窗的长短影响起决定性作用。窗过大(N 很大) ,等效于很窄的低通滤波器,不能反映幅度 En 的变化;窗过小( N 很小) ,短时能量随时间急剧变化,不能得到平滑的能量函数。在 11.025kHz 左右的采样频率下, N 选为100200 比较合适。短时能量函数的应用:1)可用于区分清音段与浊音段。 En 值大对应于浊音段,En 值小对应于清音段。2)可用于区分浊音变为清音或清音变为浊音的时间(根据 En 值的变化趋势) 。3)对高信噪比的语音信号,也可以用来区分有无语音(语音信号的开始点或终止点)。无信号(或仅有噪声能量)时,En 值很小,有语音信号时,能

31、量显著增大。0 200 400 600 800 100 1200 1400 1600 1800-101sample一一一一0 200 400 600 800 100 1200 1400 1600 1800024sample一一一一N=500 200 400 600 800 100 1200 1400 1600 18000510sample一一一一N=1500 200 400 600 800 100 1200 1400 1600 18000510sample一一一一N=2500 200 400 600 800 100 1200 1400 1600 180001020sample一一一一N=350

32、0 200 400 600 800 100 1200 1400 1600 180001020sample一一一一N=4500 200 400 600 800 100 1200 1400 1600 1800-101sample一一一一0 200 400 600 800 100 1200 1400 1600 1800012sample一一一一N=500 200 400 600 800 100 1200 1400 1600 1800024sample一一一一N=1500 200 400 600 800 100 1200 1400 1600 18000510sample一一一一N=2500 200 4

33、00 600 800 100 1200 1400 1600 18000510sample一一一一N=3500 200 400 600 800 100 1200 1400 1600 18000510sample一一一一N=450图 3.3 不同矩形窗长的短时能量函数 图 3.4 不同 hamming 窗长的短时能量函数 3.1.4 短时平均过零率过零率可以反映信号的频谱特性。当离散时间信号相邻两个样点的正负号相异时,我们称之为“过零 ”,即此时信号的时间波形穿过了零电平的横轴。统计单位时间内样点值改变符号的次数具可以得到平均过零率。定义短时平均过零率:sgns(1)()nmZxxmwn其中 为符

34、号函数, ,在矩形窗sgn 1,()0sgn()xnx条件下,可以简化为1s()s(1)2nnmNZxm短时过零率可以粗略估计语音的频谱特性。由语音的产生模型可知,发浊音时,声带振动,尽管声道有多个共振峰,但由于声门波引起了频谱的高频衰落,因此浊音能量集中于 3KZ 以下。而清音由于声带不振动,声道的某些部位阻塞气流产生类白噪声,多数能量集中在较高频率上。高频率对应着高过零率,低频率对应着低过零率,那么过零率与语音的清浊音就存在着对应关系。.图 3.5 为某一语音在矩形窗条件下求得的短时能量和短时平均过零率。分析可知:清音的短时能量较低,过零率高,浊音的短时能量较高,过零率低。清音的过零率为

35、0.5 左右,浊音的过零率为 0.1 左右,两但者分布之间有相互交叠的区域,所以单纯依赖于平均过零率来准确判断清浊音是不可能的,在实际应用中往往是采用语音的多个特征参数进行综合判决。短时平均过零率的应用:1)区别清音和浊音。例如,清音的过零率高,浊音的过零率低。此外,清音和浊音的两种过零分布都与高斯分布曲线比较吻合。2)从背景噪声中找出语音信号。语音处理领域中的一个基本问题是,如何将一串连续的语音信号进行适当的分割,以确定每个单词语音的信号,亦即找出每个单词的开始和终止位置。3)在孤立词的语音识别中,可利用能量和过零作为有话无话的鉴别。0 2000 4000 6000 8000 10000 1

36、2000 14000 16000 18000-0.500.51sample一一一一0 2000 4000 6000 8000 10000 12000 14000 16000 1800002468sample一一一一0 2000 4000 6000 8000 10000 12000 14000 16000 1800000.10.20.30.40.5sample一一一一一一一图 3.5 形窗条件下的短时平均过零率3.1.5 短时自相关函数自相关函数用于衡量信号自身时间波形的相似性。清音和浊音的发声机理不同,因而在波形上也存在着较大的差异。浊音的时间波形呈现出一定的周期性,波形之间相似性较好;清音的

37、时间波形呈现出随机噪声的特性,样点间的相似性较差。因此,我们用短时自相关函数来测定语音的相似特性。短时自相关函数定义为:()()()()nmRkxwnxmkwnk令 ,并且 ,可以得到:1 0()()()()()()()Nknm mkxnxnkxnwxnmkw 图 3.6 给出了清音的短时自相关函数波形,图 7 给出了不同矩形窗长条件下(窗长分别为 N=70,N=140,N=210, N=280)浊音的短时自相关函数波形。由图 3.6、图 3.7 短时自相关函数波形分析可知:清音接近于随机噪声,清音的短时自相关函数不具有周期性,也没有明显突起的峰值,且随着延时 k 的增大迅速减小;浊音是周期信

38、号,浊音的短时自相关函数呈现明显的周期性,自相关函数的周期就是浊音信号的周期,根据这个性质可以判断一个语音信号是清音还是浊音,还可以判断浊音的基音周期。浊音语音的周期可用自相关函数中第一个峰值的位置来估算。所以在语音信号处理中,自相关函数常用来作以下两种语音信号特征的估计:1)区分语音是清音还是浊音;2)估计浊音语音信号的基音周期。0 50 100 150 200 250 300-0.08-0.06-0.04-0.0200.020.040.060.080 50 100 150 200 250 300-0.1-0.0500.050.1一一kR(k)一一图 3.6 清音的短时自相关函数0 20 4

39、0 60 80 100 120 140 160 180 200 220-505一一kR(k)N=700 20 40 60 80 100 120 140 160 180 200 220-505一一kR(k)N=1400 20 40 60 80 100 120 140 160 180 200 220-10010一一kR(k)N=2100 20 40 60 80 100 120 140 160 180 200 220-10010一一kR(k)N=280图 3.7 不同矩形窗长条件下的浊音的短时自相关函数3.2 基于 MATLAB 的语音信号频域特征分析3.2.1 原理分析信号的傅立叶表示在信号的分析

40、与处理中起着重要的作用。因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变得更明显,因此,它能更深入地说明信号的各项红物理现象。由于语音信号是随着时间变化的,通常认为,语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统频率响应与激励源频谱的乘积。声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。由于语音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。3.2.2. 短时傅立叶变换由于语

41、音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为:()()jwjwmnmXexne(1)其中 w(n-m)是实窗口函数序列,n 表示某一语音信号帧。令 n-m=k,则得到()()()jwjwnknkexe(2)于是可以得到()()jwjnjwknkXexe(3)假定()()jwjwknkexne(4)则可以得到()()jwjnjwnXee(5)同样,不同的窗口函数,将得到不同的傅立叶变换式的结果。由上式可见,短时傅立叶变换有两个变量:n 和 ,所以它既是时序 n 的离散函数,又是角频率 的连续函数。与离散傅立叶变换逼近傅立叶变换一样,如令 =2k/N,则得离散的短时傅立叶吧如

42、下:2/2/()(,(01)jkNnnjkmNmXexwe(6)3.2.3 语谱图水平方向是时间轴,垂直方向是频率轴,图上的灰度条纹代表各个时刻的语音短时谱。语谱图反映了语音信号的动态频率特性,在语音分析中具有重要的实用价值。被成为可视语言。语谱图的时间分辨率和频率分辨率是由窗函数的特性决定的。时间分辨率高,可以看出时间波形的每个周期及共振峰随时间的变化,但频率分辨率低,不足以分辨由于激励所形成的细微结构,称为宽带语谱图;而窄带语谱图正好与之相反。宽带语谱图可以获得较高的时间分辨率,反映频谱的快速时变过程;窄带语谱图可以获得较高的频率分辨率,反映频谱的精细结构。两者相结合,可以提供带两与语音特

43、性相关的信息。语谱图上因其不同的灰度,形成不同的纹路,称之为“声纹”。声纹因人而异,因此可以在司法、安全等场合得到应用。3.2.4 复倒谱和倒谱复倒谱 是 x(n)的 Z 变换取对数后的逆 Z 变换,其表达式如下 :()nx(7)1l()xn倒谱 c(n)定义为 x(n)取 Z 变换后的幅度对数的逆 Z 变换,即(8)1()l|()|czX在时域上,语音产生模型实际上是一个激励信号与声道冲激响应的卷积。对于浊音,激励信号可以由周期脉冲序列表示;对于清音,激励信号可以由随机噪声序列表示。声道系统相当于参数缓慢变化的零极点线性滤波器。这样经过同态处理后,语音信号的复倒谱,激励信号的复倒谱,声道系统

44、的复倒谱之间满足下面的关系:(9)()()snev由于倒谱对应于复倒谱的偶部,因此倒谱与复倒谱具有同样的特点,很容易知道语音信号的倒谱,激励信号的倒谱以及声道系统的倒谱之间满足下面关系:(10)()()sevnnc浊音信号的倒谱中存在着峰值,它的出现位置等于该语音段的基音周期,而清音的倒谱中则不存在峰值。利用这个特点我们可以进行清浊音的判断,并且可以估计浊音的基音周期。3.2.5 基因周期估计浊音信号的倒谱中存在峰值,它的出现位置等于该语音段的基音周期,而清音的倒谱中则不存在峰值。利用倒谱的这个特点,我们可以进行语音的清浊音判决,并且可以估计浊音的基音周期。首先计算语音的倒谱,然后在可能出现的

45、基因周期附近寻找峰值。如果倒谱峰值超过了预先设置的门限,则输入语音判断为浊音,其峰值位置就是基因周期的估计值;反之,如果没有超出门限的峰值的话,则输入语音为清音。3.2.6 共振峰估计对倒谱进行滤波,取出低时间部分进行进行逆特征系统处理,可以得到一个平滑的对数谱函数,这个对数谱函数显示了输入语音段的共振峰结构,同时谱的峰值对应于共振峰频率。通过此对数谱进行峰值检测,就可以估计出前几个共振峰的频率和强度。对于浊音的声道特性,可以采用前三个共振峰来描述;清音不具备共振峰特点。3.2.7 结果分析 短时谱0 2 4 6 8 10 12x 104-1-0.500.51 original signal0

46、 50 100 150 200 250 300-100-50050 一一一图 3.8 短时谱 语谱图图 3.9 语谱图 倒谱和复倒谱图 3.1.10、3.1.11 是加矩形窗和汉明窗的倒谱图和复倒谱图,图中横轴的单位是 Hz,纵轴的单位是 dB。0 50 100 150 200 250 300-1-0.500.51 一一一一一一一一0 50 100 150 200 250 300-505 一一一一一一一一一图 3.10 加矩形窗时的倒谱和复倒谱图0 50 100 150 200 250 300-2-101 一一一一一一一一0 50 100 150 200 250 300-20-1001020

47、一一一一一一一一一图 3.11 加汉明窗时倒谱和复倒谱图 基因周期和共振峰估计0 100 200 300 400 500 600-3-2-101一一 N一一一一0 100 200 300 400 500 600-200-1000100一一 /ms一一/dB图 3.12 倒谱图分析第 15 帧其中第一峰值出现在第 2 个样点,窗长为 512(64ms) ,抽样频率为11KHz,说明基因频率就在这个点上,其基因频率为 5.5KHz,基音周期为 0.182ms。3.3 基于 MATLAB 的 LPC 分析3.3.1 技术介绍线性预测分析是最有效的语音分析技术之一,在语音编码、语音合成、语音识别和说话

48、人识别等语音处理领域中得到了广泛的应用。语音线性预测的基本思想是:一个语音信号的抽样值可以用过去若干个取样值的线性组合来逼近。通过使实际语音抽样值与线性预测抽样值的均方误差达到最小,可以确定唯一的一组线性预测系数。采用线性预测分析不仅能够得到语音信号的预测波形,而且能够提供一个非常好的声道模型。如果将语音模型看作激励源通过一个线性时不变系统产生的输出,那么可以利用LP 分析对声道参数进行估值,以少量低信息率的时变参数精确地描述语音波形及其频谱的性质。此外,LP 分析还能够对共振峰、功率谱等语音参数进行精确估计,LP 分析得到的参数可以作为语音识别的重要参数之一。由于语音是一种短时平稳信号,因此

49、只能利用一段语音来估计模型参数。此时有两种方案:一种是将长的语音序列加窗,然后对加窗语音进行 LP 分析,只要限定窗的长度就可以保证分析的短时性,这种方案称为自相关法;另一种方案不对语音加窗,而是在计算均方预测误差时限制其取和区间,这样可以导出 LP 分析的自协方差法。3.3.2 LP 分析基本原理验原理LP 分析为线性时不变因果稳定系统 V(z)建立一个全极点模型,并利用均方误差准则,对已知的语音信号 s(n)进行模型参数估计。如果利用 P 个取样值来进行预测,则称为 P 阶线性预测。 假设用过去 P 个取样值的加权之和来预测信号当前取样值 ,则预测信号 为:1,2,SnSnp SnSn(1)1pka其中加权系数用 表示,称为预测系数,则预测误差为:k(2)1pkensSnsan要使预测最佳,则要使短时平均预测误差最小

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报