1、安徽财经大学信息工程学院本科毕业论文1本科毕业设计题 目 语音信号的短时频域分析 学 院 信息工程学院 专 业 电子信息工程 班 级 081 信工 3 班 学 号 200883097 姓 名 耿 李 广 指导老师 殷 仕 淑 2012 年 5 月安徽财经大学信息工程学院本科毕业论文1目录摘 要 1第 1 章 绪论 31.1 课题的背景与意义 .31.2 国内外研究现状及发展趋势 .41.3 本 文 的 仿 真 软 件 MATLAB.51.4 本 文 主 要 工 作 6第 2 章 语音信号的频域特点和抽样 82.1 语音信号分析处理的一般流程 .82.2 语音信号的特点 .82.3 语音信号的抽
2、样 .92.4 语音信号的分析技术 .11第 3 章 语音信号的频域分析 .123.1 语音信号分析的预处理 .123.2 利用短时博里叶变换求语音的短时谱 .133.3 语音信号的功率谱 .163.4 语音信号的语谱图 .173.5 复倒谱和倒谱 .19第 4 章 语音信号的综合仿真分析 22参考资料 .25安徽财经大学信息工程学院本科毕业论文2致谢 26附录 27安徽财经大学信息工程学院本科毕业论文1语音信号的频域分析摘 要语音信号的采集与分析技术是一门涉及面很广的交叉科学,它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。其中语音采集和分析仪器的小型化、智能
3、化、数字化以及多功能化的发展越来越快,分析速度较以往也有了大幅度的高。将语音看为一种特殊的信号,即一种“复杂向量 ”来看待。通过调用处理数字信号工具 MATLAB 里的命令函数,利用数字信号处理的知识来解决问题。像给一般信号做频谱分析一样,也分析了语音信号的频谱。本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法,并通过 PC 机录制自己的一段声音,运用MATLAB 进行仿真分析。关键词:语音信号;频域分析;MATLABSpeech signal analysis in frequency domainAbstractSpeech signal acquisition
4、and analysis techniques are a wide range of cross-scientific,Its application and development of voice study, sound measurement study, electronic measuring technology, and digital signal processing disciplines, such as close contact. Collection and analysis of voice one of the small-scale equipment,
5、intelligence, digital and multi-functional development of more and more quickly, faster than the previous analysis has been substantially high. The voice is taken as a special signal, a complex vector. By using the command functions in the digital signal processing toolMATLAB, the digital signal pro
6、cessing can solve many problems. The spectrum of voice signals are analyzed, which is the same as the spectrum analysis of common signals. This paper introduces the voice signal acquisition and 安徽财经大学信息工程学院本科毕业论文2analysis of the history of the development, as well as the characteristics of speech si
7、gnal,Collection and analysis methods,Recording machine through the PC section of my own voices,the use of MATLAB for simulation analysis.Keywords:audio signal, acquisition and analysis,MATLAB安徽财经大学信息工程学院本科毕业论文3第 1 章 绪论随着现代计算机技术的普及和发展,数字电子产品的使用越来越深入到人们的日常生活中。人类与数字化产品的交往已经密不可分。语音信号的处理作为新时代的一个课题越来越受到人们
8、的重视。于是通过对自然声音的识别与处理不约而同的产生于许许多多科学研究人员的脑海中,语音识别处理的出现就孕育而生了。语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。本文简要介绍了语音信号采样与分析的发展史以及语音信号的特征、采样与分析方法。1.1 课题的背景与意义语言是人类交换信息最方便、最快捷的一种方式,在高度发达的信息社会中,用数字化的方法进行语音的传送、存储、识别、合成和增强是整个数字化通信网中最重要、最基本的组成部分之一。数字电话通信、
9、高音质的窄带语音通信系统、语言学习机,声控打字机、自动翻译机、只能机器人、新一代计算机语音智能终端及许多军事上的应用等,都要用到语音信号处理技术。语音信号处理的目的是要得到某些语音特征参数一遍高效地传输或存储;或者是通过某种处理运算以达到某种用途的要求,例如人工合成语音、识别出讲话者、识别出讲话的内容等。语音信号处理是一门新兴的边缘学科,它是语音学与数字信号处理两个学科相结合的产物。语音信号处理的发展依赖于这些学科的发展,而语音信号处理技术的进步也会促进这些领域的进步。语音信号采集与分析之所以能够那样长期地、深深地吸引广大科学工作者去不断地对其进行研究和探讨,除了它的实用性之外,另一个重要原因
10、是,它始终与当时信息科学中最活跃的前沿学科保持密切的联系并且一起发展。语音信号采集与分析是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科,与心理、生理学、计算机科学、通信与信息科学以及模式识别和人工智能等学科都有着非常密切的关系。对语音信号采集与分析的研究安徽财经大学信息工程学院本科毕业论文4一直是数字信号处理技术发展的重要推动力量。因为许多处理的新方法的提出,首先是在语音信号处理中获得成功,然后再推广到其他领域。1.2 国内外研究现状及发展趋势早在一两千年前,人们便对语言进行了研究。由于没有适当的仪器设备,长期以来,一直是由耳倾听和用口模仿来进行研究。因此,这种语言研究常
11、被称为“口耳之学 ”,所以对语音只是停留在定性的描写上。语音信号处理真正意义上的研究可以追溯到 1876 年贝尔电话的发明,该技术首次使用声电、电声转换技术实现了远距离的语音传输。1939 年提出并研制成功的第一个声码器,从此奠定了语音产生模型的基础。 这一发明在语音信号处理领域具有划时代的 意义。19 世纪 60 年代,亥姆霍兹应用声学方法对元音和歌唱进行了研究,从而奠定了语言的声学基础。20 世纪 40 年代,一种语言声学的专用仪器语谱图仪问世了。它可以把语音的时变频谱用语图表示出来,从而得出了“可见语言” 。1948 年美国 Haskins 实验室研制成功的语音回放机,该仪器可以把手工绘
12、制在薄膜片上的语谱图自动转换成语音,并进行语音合成。20 世纪 50 年代对语言产生了系统的论述。随着计算机的出现,语音分析工作,得以在电子计算机上进行。在此基础上,语音信号处理的研究工作得到了计算机技术的帮助,取得了突破性的进展。随着信息技术的不断发展,尤其是网络技术的日益普及和完善,语音信号处理技术 正发挥着越来越重要的作用,并且出现了一些新的方向。 (1)基于语音的信息检索。随着网络技术及数字图书馆技术的发展,针对于传统 的基于文本信息的检索技术,基于语音识别的信息检索技术正成为当今的研究热点。 (2)基于语音识别的广播新闻的自动文摘技术的研究。由于广播、电视中的发音较为标准规范,识别中
13、避免了说话人发音的不规范,有利于语音识别系统性能的提高。 (3)VOIP 技术。它是通过 TCP/IP 网络,而不是传统的电话网络来传输语音的新的通信方式,通常称为 IP 电话技术。它是网络上对压缩的语音数据以及数据包的形式进行传输和识别。随着手机、PDA 等移动电子设备的发展,嵌入式语音识别算法的研究已逐渐成为研究的热点。 安徽财经大学信息工程学院本科毕业论文5(4)语音训练与校正技术也是近年来语音信号处理的一个重要方向。现在越来越多的人希望掌握其他非母语语言,以便方便的进行交流。因此语言学习机已成为当今外语学习者的有利工具。1.3 本 文 的 仿 真 软 件 MATLABMATLAB 名
14、字 由 MATrix 和 LABoratory 两 词 的 前 三 个 字 母 组 合 而 成 。那 是 20 世 纪 七 十 年 代 后 期 的 事 : 时 任 美 国 新 墨 西 哥 大 学 计 算 机 科 学 系 主 任的 Cleve Moler 教 授 出 于 减 轻 学 生 编 程 负 担 的 动 机 , 为 学 生 设 计 了 一 组 调 用LINPACK 和 EISPACK 库 程 序 的 “通 俗 易 用 ”的 接 口 , 此 即 用 FORTRAN 编写 的 萌 芽 状 态 的 MATLAB。经 几 年 的 校 际 流 传 , 在 Little 的 推 动 下 , 由 Lit
15、tle、 Moler、 Steve Bangert 合 作 , 于 1984 年 成 立 了 MathWorks 公 司 , 并 把 MATLAB 正 式 推向 市 场 。 从 这 时 起 , MATLAB 的 内 核 采 用 C 语 言 编 写 , 而 且 除 原 有 的 数 值计 算 能 力 外 , 还 新 增 了 数 据 图 视 功 能 。MATLAB 以 商 品 形 式 出 现 后 , 仅 短 短 几 年 , 就 以 其 良 好 的 开 放 性 和 运 行的 可 靠 性 , 使 原 先 控 制 领 域 里 的 封 闭 式 软 件 包 ( 如 英 国 的 UMIST, 瑞 典 的LUND
16、 和 SIMNON, 德 国 的 KEDDC) 纷 纷 淘 汰 , 而 改 以 MATLAB 为 平 台加 以 重 建 。 在 时 间 进 入 20 世 纪 九 十 年 代 的 时 候 , MATLAB 已 经 成 为 国 际控 制 界 公 认 的 标 准 计 算 软 件 。到 九 十 年 代 初 期 , 在 国 际 上 30 几 个 数 学 类 科 技 应 用 软 件 中 , MATLAB在 数 值 计 算 方 面 独 占 鳌 头 , 而 Mathematica 和 Maple 则 分 居 符 号 计 算 软 件的 前 两 名 。 Mathcad 因 其 提 供 计 算 、 图 形 、 文
17、字 处 理 的 统 一 环 境 而 深 受 中 学生 欢 迎 。MathWorks 公 司 于 1993 年 推 出 MATLAB4.0 版 本 , 从 此 告 别 DOS 版 。4.x 版 在 继 承 和 发 展 其 原 有 的 数 值 计 算 和 图 形 可 视 能 力 的 同 时 , 出 现 了 以 下几 个 重 要 变 化 : ( 1) 推 出 了 SIMULINK。 这 是 一 个 交 互 式 操 作 的 动 态 系 统建 模 、 仿 真 、 分 析 集 成 环 境 。 它 的 出 现 使 人 们 有 可 能 考 虑 许 多 以 前 不 得 不 做简 化 假 设 的 非 线 性 因
18、素 、 随 机 因 素 , 从 而 大 大 提 高 了 人 们 对 非 线 性 、 随 机 动态 系 统 的 认 知 能 力 。 ( 2) 开 发 了 与 外 部 进 行 直 接 数 据 交 换 的 组 件 , 打 通 了MATLAB 进 行 实 时 数 据 分 析 、 处 理 和 硬 件 开 发 的 道 路 。 ( 3) 推 出 了 符 号 计安徽财经大学信息工程学院本科毕业论文6算 工 具 包 。 1993 年 MathWorks 公 司 从 加 拿 大 滑 铁 卢 大 学 购 得 Maple 的 使用 权 , 以 Maple 为 “引 擎 ”开 发 了 Symbolic Math Too
19、lbox 1.0。 MathWorks公 司 此 举 加 快 结 束 了 国 际 上 数 值 计 算 、 符 号 计 算 孰 优 孰 劣 的 长 期 争 论 , 促 成了 两 种 计 算 的 互 补 发 展 新 时 代 。 ( 4) 构 作 了 Notebook 。 MathWorks 公 司瞄 准 应 用 范 围 最 广 的 Word , 运 用 DDE 和 OLE, 实 现 了 MATLAB 与Word 的 无 缝 连 接 , 从 而 为 专 业 科 技 工 作 者 创 造 了 科 学 计 算 、 图 形 可 视 、 文字 处 理 于 一 体 的 高 水 准 环 境 。1997 年 仲 春
20、 , MATLAB5.0 版 问 世 , 紧 接 着 是 5.1、 5.2, 以 及 和 1999年 春 的 5.3 版 。 与 4.x 相 比 , 现 今 的 MATLAB 拥 有 更 丰 富 的 数 据 类 型 和 结构 、 更 友 善 的 面 向 对 象 、 更 加 快 速 精 良 的 图 形 可 视 、 更 广 博 的 数 学 和 数 据 分析 资 源 、 更 多 的 应 用 开 发 工 具 。MATLAB 的 基 本 数 据 单 位 是 矩 阵 , 它 的 指 令 表 达 式 与 数 学 、 工 程 中 常 用的 形 式 十 分 相 似 , 故 用 MATLAB 来 解 算 问 题
21、要 比 用 C, FORTRAN 等 语 言完 成 相 同 的 事 情 简 捷 得 多 , 并 且 MATLAB 也 吸 收 了 像 Maple 等 软 件 的 优点 , 使 MATLAB 成 为 一 个 强 大 的 数 学 软 件 。 在 新 的 版 本 中 也 加 入 了 对C, FORTRAN, C+, JAVA 的 支 持 。 可 以 直 接 调 用 ,用 户 也 可 以 将 自 己 编写 的 实 用 程 序 导 入 到 MATLAB 函 数 库 中 方 便 自 己 以 后 调 用 , 此 外 许 多 的MATLAB 爱 好 者 都 编 写 了 一 些 经 典 的 程 序 , 用 户
22、可 以 直 接 进 行 下 载 就 可 以用 。MATLAB 功能非常强大,所包含的内容非常丰富,其主要功能可概括为几个方面:1. 提供了一个接近于人们常用的数学表达方式的高级汇编语言;2. 提供了覆盖几乎所有科学计算领域所需算法的大量子程序,这些子程序以m 文件的方式给出;3. 具有多种多样的图形、图像显示功能及编辑功能;4. 具有强大的符号运算功能,对于微分、积分、级数展开等运算特别方便;5. 具有可视化建模与仿真功能;6. 具有与用其他语言编写的外部子程序相接口的能力,也可把 MATLAB 程序转换成其他高级语言(C,C+,JAVA)的子程序;安徽财经大学信息工程学院本科毕业论文77.
23、具有从外部文件及外部硬件设备读入数据的能力。1.4 本 文 主 要 工 作信号的傅立叶表示在信号的分析与处理中起着重要的作用。因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变得更明显。 语 音 信 号 处 理 是 目 前 发 展 最 为 迅 速 的 信 息 科 学 研 究 领 域 中 的 一 个 ,其 研 究 涉 及 一 系 列 前 沿 课 题 , 且 处 于 迅 速 发 展 之 中 。 本 文 将 会 简 要 介 绍 语 音信 号 的 采 集 、 分 析 方 法 、 以 及 语 音 信 号
24、 的 特 征 , 通 过 自 己 录 制 的 一 段 声 音 ,运 用 MATLAB 进 行 仿 真 分 析 , 然 后 再 对 信 号 进 行 频 域 上 的 分 析 。安徽财经大学信息工程学院本科毕业论文8、第 2 章 语音信号的频域特点和抽样2.1 语音信号分析处理的一般流程语 音 信 息 加 工 和 处 理 的 一 般 流 程 如 下 图 所 示 图 2-1.语音信号处理流程在 语 音 信 号 的 具 体 情 况 下 , 信 息 源 就 是 说 话 的 人 , 通 过 观 察 和 测 量 得 到的 就 是 语 音 的 波 形 。 信 号 处 理 包 括 以 下 几 个 内 容 , 首
25、先 根 据 一 个 给 定 的 模 型得 到 这 一 信 号 的 表 示 ; 然 后 再 用 某 种 高 级 的 变 换 把 这 一 信 号 变 成 一 种 更 加 方便 的 形 式 ; 最 后 一 步 是 信 息 的 提 取 和 使 用 这 一 步 可 由 听 者 来 完 成 , 也 可 由 机器 自 动 完 成 。所 以 , 语 音 信 号 处 理 一 般 有 两 个 任 务 : 第 一 , 它 是 一 种 工 具 , 利 用 它 可以 得 到 语 音 信 号 的 一 般 表 示 , 这 种 表 示 可 以 用 波 形 表 示 也 可 以 用 参 数 表 示 ;第 二 , 把 信 号 从
26、一 种 形 式 变 换 到 另 一 种 形 式 , 变 换 后 的 表 示 形 式 虽 然 从 性 质上 讲 它 的 普 遍 性 可 能 小 一 些 , 但 对 某 一 特 殊 的 应 用 却 是 更 加 合 适 。无 论 是 语 音 识 别 还 是 语 音 编 码 与 合 成 , 对 输 入 的 语 音 信 号 首 先 要 进 行 预处 理 , 对 信 号 进 行 适 当 的 放 大 和 增 益 控 制 , 并 惊 醒 反 混 叠 滤 波 来 消 除 工 频 信号 的 干 扰 ; 然 后 进 行 数 字 化 , 将 模 拟 信 号 转 换 为 便 于 计 算 机 处 理 的 数 字 信 号
27、;最 后 对 数 字 信 号 进 行 分 析 , 提 取 一 定 的 反 映 语 音 信 息 的 参 数 ; 最 后 根 据 语 音信 号 处 理 的 任 务 不 同 , 采 用 不 同 的 处 理 方 法 。安徽财经大学信息工程学院本科毕业论文92.2 语音信号的特点由 于 语 音 信 号 是 随 着 时 间 变 化 的 , 通 常 认 为 , 语 音 是 一 个 受 准 周 期 脉冲 或 随 机 噪 声 源 激 励 的 线 性 系 统 的 输 出 。 输 出 频 谱 是 声 道 系 统 频 率 响 应 与 激励 源 频 谱 的 乘 积 。 声 道 系 统 的 频 率 响 应 及 激 励 源
28、 都 是 随 时 间 变 化 的 , 因 此 一般 标 准 的 傅 立 叶 表 示 虽 然 适 用 于 周 期 及 平 稳 随 机 信 号 的 表 示 , 但 不 能 直 接 用于 语 音 信 号 。 由 于 语 音 信 号 可 以 认 为 在 短 时 间 内 近 似 不 变 , 因 而 可 以 采 用 短时 分 析 法 .。 在频域内,语音信号的频谱分量主要集中在 3003400Hz 的范围内。利用这个特点,可以用一个防混叠的带通滤波器将此范围内的语音信号频率分量取出,然后按 8kHz 的采样率对语音信号进行采样,就可以得到离散的语音信号。2.3 语音信号的抽样在将语音信号进行数字化前,必须
29、先进行防混叠预滤波,预滤波的目的有两个:抑制输入信号各领域分量中频率超出 fs/2 的所有分量(fs 为采样频率),以防止混叠干扰。 抑制 50Hz 的电源工频干扰。这样,预滤波器必须是一个带通滤波器,设其上、下截止频率分别是 fH 和 fL,则对于绝人多数语音编译码器,fH=3400Hz 、fL60100Hz 、采样率为 fs 8kHz;而对丁语音识别而言,当用于电话用户时,指标与语音编译码器相同。当使用要求较高或很高的场合时 fH 4500Hz 或 8000Hz、fL60Hz、fs10kHz 或 20kHz。为了将原始模拟语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度
30、上均为离散的数字语音信号。采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔t 在模拟信号 x(t)上逐点采取其瞬时值。采样时必须要注意满足奈奎斯特定理,即采样频率 fs 必须以高于受测信号的最高频率两倍以上的速度进行取样,才能正确地重建波原始信号。下图是语音信号在抽样频率为 44.1KHz 的频谱图。安徽财经大学信息工程学院本科毕业论文10图 2-2.语音信号频域波形图由图可知,这段语音信号的频率主要集中在 1KHz 左右,当采样频率为44.1KHz 时,由于采样频率比较大,所以采样点数就越密,所得离散信号就越逼近于原信号,频谱也没有发生混叠。对上述信号进行 1/80 采样频率抽取,即
31、采样频率变为将近 500Hz 时,由于采样频率比较小,所以采样点数就稀疏,所得离散信号就越偏离于原信号,频谱也发生了混叠。下图为抽样频率为 500Hz 时的频谱。图 2-3.语音信号频域波形图在采样的过程中应注意采样间隔的选择,对模拟信号采样首先要确定采样间隔。如何合理选择t 涉及到许多需要考虑的技术因素。一般而言,采样频率越高,采样点数就越密,所得离散信号就越逼近于原信号。但过高的采样频率安徽财经大学信息工程学院本科毕业论文11并不可取,对固定长度(T)的信号,采集到过大的数据量( N=T/t) ,给计算机增加不必要的计算工作量和存储空间;若数据量(N )限定,则采样时间过短,会导致一些数据
32、信息被排斥在外。采样频率过低,采样点间隔过远,则离散信号不足以反映原有信号波形特征,无法使信号复原,造成信号混淆。根据采样定理,当采样频率大于信号的两倍带宽时,采样过程不会丢失信息,利用理想滤波器可从采样信号中不失真地重构原始信号波形。量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示。量化电平按级数变化,实际的振动值是连续的物理量。具体振值用舍入法归到靠近的量化电平上。 语音信号经过预滤波和采样后,由 AD 变换器变换为二址制数字码。这种防混叠滤波通常与模数转换器做在一个集成块内,因此目前来说,语音信号的数字化的质量还是有保证的。2.4 语音信号的分析技术语音信号分析是语音信号处理的
33、前提和基础,只有分析出可表示语音信号本质特征的参数,才有可能利用这些参数进行高效的语音通信、语音合成和语音识别等处理。而且,语音合成的音质好坏,语音识别率的高低,也都取决于对语音信号分桥的准确性和精确性。因此语音信号分析在语音信号处理应用中具有举足轻重的地位。贯穿于语音分析全过程的是“短时分析技术” 。因为,语音信号从整体来看其特性及表征其本质特征的参数均是随时间而变化的,所以它是一个非稳态过程,不能用处理稳信号的数字信号处理技术对其进行分析处理。但是,由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种口腔肌肉运动相对于语音频率来说是非常缓慢的,所以从另一方面看,虽然语音信
34、号具有时变特性,但是在一个短时间范围内(一般认为在 1030ms 的短时间内),其特性基本保持不变即相对稳定,因面可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时” 的基础上即进行“ 短时分析 ”,将语音信号分为一段一段的来分析其特征参数,其中每一段称为一“ 帧” ,帧长一般取为 1030ms 。这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。根据所分析出的参数的性质的不同,可将语音信号分析分为时域分析、频安徽财经大学信息工程学院本科毕业论文12域分析、倒频域分析等;时域分析方法具有简单、计算量小、物理意义明确
35、等优点,但由于语音信号最重要的感知特性反映在功率谱中,而相位变化只起着很小的作用,所以相对于时域分析来说频域分析更为重要。本文将简要介绍频域分析以及语谱图分析。第 3 章 语音信号的频域分析语音的频谱具有非常明显的语言声学意义,能反映一些重要的语音特征。实验表明,人类感知语音的过程和语音的频谱特性关系密切,人的听觉对语音的频谱更敏感。因此,对语音信号进行频谱分析是认识和处理语音信号的重要方法- 。语音频谱是语音信号在频域中信号的能量与频率的分布关系。语音信号的频域分析就是分析语音信号的频域持征。从广义上讲,语音信号的频域分析包括语音信号的频谱、功率谱、倒频谱分析等,而常用的频域分析方法有带通滤
36、波器组法、傅里叶变换法、线件预测法等几种。本文介绍的是语音信号的傅里叶分析法。因为语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅里叶变换不能用来直接表示语音信号,而应该用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱” 。3.1 语音信号分析的预处理由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz 以上按 6dB/倍频程跌落,即 6dB/oct(2 倍频)或 20dB/dec(10 倍频),所以求语音信号频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分的难求,为此要在预处理中进行预加重(Pre-emphasis)处理。预加重
37、的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。预加重可在语音信号数安徽财经大学信息工程学院本科毕业论文13字化时在反混叠滤波器之前进行,这样不仅可以进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比。但预加重一般是在语音信号数字化之后,在参数分析之前在计算机里用 6dB/倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶的数字滤波器:H(z)=1-z -1,其中 u 的值接近于 1。下面是滤波器幅频特性以及预处理后的语音信号。图 3-1.滤波器特性图 3-2.高频部分得到加强3.2 利用短时博里叶变
38、换求语音的短时谱傅 里 叶 分 析 是 分 析 线 性 系 统 和 平 稳 信 号 稳 态 特 性 的 强 有 力 的 工 具 , 它 在安徽财经大学信息工程学院本科毕业论文14许 多 工 程 领 域 得 到 了 广 泛 的 应 用 。 其 理 论 完 善 , 且 有 快 速 算 法 , 在 语 音 信 号处 理 领 域 也 是 一 个 重 要 工 具 。语 音 信 号 本 质 是 非 平 稳 信 号 , 其 非 平 稳 特 性 是 由 发 声 器 官 的 物 理 运 动 过程 产 生 的 。 发 声 器 官 的 运 动 由 于 存 在 惯 性 , 所 以 可 以 假 设 语 音 信 号 在1
39、030ms 这 样 的 时 间 段 内 是 平 稳 的 , 这 是 短 时 分 帧 处 理 的 基 础 , 也 是 短 时 傅里 叶 分 析 的 基 础 。 短 时 傅 里 叶 分 析 就 是 基 于 短 时 平 稳 的 假 设 下 , 用 稳 态 分 析方 法 处 理 非 平 稳 信 号 的 一 种 方 法 。根 据 语 音 信 号 的 二 元 激 励 模 型 , 语 音 信 号 被 看 为 一 个 准 周 期 脉 冲 或 随 机噪 声 源 激 励 的 线 性 系 统 输 出 。 输 出 频 谱 是 声 道 系 统 的 频 率 响 应 与 激 励 源 频谱 的 乘 积 , 一 般 标 准 的
40、 傅 里 叶 变 换 适 用 于 周 期 及 平 稳 随 机 信 号 的 表 示 , 但 不能 直 接 用 于 语 音 信 号 。 因 为 语 音 信 号 被 看 为 短 时 平 稳 信 号 , 所 以 可 采 用 短 时傅 里 叶 分 析 。设语音波形分帧处理后得到的第 n 帧语音信号为 Xn(m),则 Xn(m)满足下式:(3-1)()()nxmwxm01N(3-2) 10(1)N, , 其 他 值其中,n0,1T,2T,并且 N 为帧长,T 为帧移长度。某 一 帧 的 短 时 傅 里叶 变 换 的 定 义 如 下 :(3-3) j j(e)()emnmXxwn式 中 w(n-m)是 窗
41、函 数 。 不 同 的 窗 函 数 , 可 得 到 不 同 的 傅 里 叶 变 换 的 结 果 。 可以 看 出 短 时 傅 里 叶 变 换 有 两 个 变 量 , 即 离 散 时 间 n 及 连 续 频 率 w。 若 令Nk2, 则 可 得 到 离 散 的 短 时 傅 里 叶 变 换 如 下 :(3-4)2 2j j(e)()e ,01k kmNnnmXxwn 它 实 际 上 就 是 频 率 抽 样 。 将 上 述 某 一 帧 语 音 信 号 的 傅 里 叶 变ejn换 写 为 安徽财经大学信息工程学院本科毕业论文15(3-5)j j(e)()emnmXxwn可 以 看 出 时 变 傅 里
42、叶 变 换 是 时 间 标 号 n 的 函 数 , 当 n 变 化 时 , 窗 函 数 w(n-m)沿 着 x(m)滑 动 。图 3-3.窗函数 w(n-m)沿着 x(m)滑动可 以 得 出 结 论 : 短 时 傅 里 叶 变 换 实 际 就 是 窗 选 语 音 信 号 的 标 准 傅 里 叶 变换 。 这 里 , 窗 w(n-m)是 一 个 “滑 动 的 ”窗 口 , 它 随 n 的 变 化 而 沿 着 序 列 X(n)滑 动 。 由 于 窗 口 是 有 限 长 度 的 , 满 足 绝 对 可 和 条 件 , 所 以 这 个 变 换 是 存 在 的 。当 然 窗 口 函 数 不 同 , 博
43、里 叶 变 换 的 结 果 也 将 不 同 。对 于 w(n-m)窗 来 说 , 它 除 了 具 有 选 出 x(m)序 列 中 被 分 析 部 分 作 用 外 ,其 形 状 对 时 变 傅 里 叶 变 换 的 特 性 也 具 有 重 要 作 用 , 从 标 准 傅 里 叶 变 换 可 以 方便 的 解 释 这 种 作 用 。 如 果 被 看 成 是 w(n-m)x(m)序 列 的 标 准 傅 里 叶 变)(ejnX换 , 同 时 假 设 x(m)及 w(m)的 标 准 傅 里 叶 变 换 存 在 , 即 :(3-6)j je()emx(3-7)j j()()mWw当 n 固定时,序列 w(n
44、-m)的傅里叶变换为 (3-8)jjj()e()emn根据卷积定理,有:(3-9)jjjj(e)()e* ()nnXWX因为上式右边两个卷积项均为关于角频率 w 的以 2 为周期的连续函数,所安徽财经大学信息工程学院本科毕业论文16以也可将其写成以下的卷积积分形式:(3-j jjj()1(e)(e)ed2nnXWX10)假设 x(m)的 DTFT 是 ,且 的 DTFT 是 ,那么 是()jw()m()jw()jwnXe和 的周期卷积。()jwXe()jwW根据信号的时宽带宽的积为一常数这一基本性质,可知 主瓣宽度与()jwWe窗口宽度成反比,N 越大, 的主瓣越窄。为了使 忠实再现()jwe
45、jnX的特性, 相对于 来说必须是个冲激函数。所以为了使()jwXe()jwejX,需 ;但是 N 值太大时,信号的分帧又失去了意义。jjn尤其是 N 大于语音的音素长度时, 已不能反映该语音音素的频谱了。因()jwne此,应折衷选择窗的宽度 N。另外,窗的形状也对短时博氏频谱有影响,如矩形窗,虽然频率分辨率很高(即主辩狭窄尖锐),但由于第一旁瓣的衰减很小,有较大的上下冲,采用矩形窗时求得的 与 的偏差较大,这就是()jwnXe()jGibbs 效应,所以不适合用于频谱成分很宽的语音分析中。而汉明窗在频率范围中的分辨率较高,而且旁瓣的衰减大,具有频谱泄漏少的优点。所以在求短时频谱时一船采用具有
46、较小上下冲的汉明窗。3.3 语音信号的功率谱在语音信号数字处理中,功率谱具有重要意义,在一些语音应用系统中往往都是利用语音信号的功率谱。根据功率谱定义,可以写出短时功率谱与短时傅里叶变换之间的关系:(3-11)2()()()()jwjjwjwnnnnSeXeX或者是: (3-12) 2()()nnnkk式中表示复共轭运算。并且功率谱 是短时自相关函数 的傅里叶变jwnSe()nRk换。安徽财经大学信息工程学院本科毕业论文17(3-13) 12()()()Njwj jwknnnkSeXRe下图是用 MATLAB 中的同一人两次说同一词的功率谱比较。图 3-4.同一人两次说同一词功率谱比较可以看出
47、功率谱图比较好地反映出声音的个人特征:在低频部分(频率低于 6000Hz),同一人说同一词,其功率谱图中的各个波峰所对应的频率基本相同;不同人说同一词,其功率谱图的出现波峰的频率比较接近;同一人说不同词时功率谱的形状差别较大。在高频部分,波峰比较密集,特征不明显。3.4 语音信号的语谱图语音的时域分析和频域分析是语音分析的两种重要方法。显然这两种单独分析的方法均有局限性:时域分析对语音信号的频率特性没有直观的了解;而频域分析出的特征中又没有语音信号随时间的变化关系。语音信号是时变信号,所以其频谱也是随时间变化的。但是由于语音信号随时间变化是很缓慢的,因而在一段短时间内(如 1030ms 之间,
48、即所谓的一帧之内)可以认为其频谱是固定不变的,这种频谱又称为短时谱。短时谱只能反映语音信号的静态频率特性,不能反映语音信号的动态频率特性。因此,人们致力于研究语音的时频分析特性。把和时序相关的傅里叶分析的显示图形称为语谱图(Sonogram,或者安徽财经大学信息工程学院本科毕业论文18Spectrogram)。语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。用语谱图分析语音又称为语谱分析。语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的
49、变化情况,或者说是一种动态的频谱;记录这种频谱的仪器就是语谱仪。语谱仪实际上是一个带通滤波器组的输出随时间发生连续变化,连续重复进行语音信号频率分析的仪器。带通滤波器有两种带宽可供选择:窄带为45Hz,宽带为 300Hz。窄带语谱图有良好的频率分辨率,有利于显示基音频率及其各次谐波,但它的时间分辨率较差,不利于观察共振峰(卢道谐振)的变化;而宽带语谱图正相反,具有良好的时间分辨率及较差的频率分辨率。宽带语谱图能给出语音的共振峰频率及清辅音的能量汇集区,在话谱图里共振峰呈现为黑色的条纹。可以利用语谱仪测量语谱图的方法来确定语音参数,例如共振峰频率及基音频率。语语图的实际应用是用于确定出讲话人的本性。语谱图上因其不同的黑白程度,形成了个同的纹路,称之为“声纹” ,它因人而异,即不同讲话者语谱图的声纹是不同的。因而可以利用声纹鉴别不问的讲话人。这与不向的人有不同的指纹,根据指纹可以区别不同的人是一个道理。虽然对采用