1、 贵州大学硕士学位论文英语作为第二语言的多媒体语音数据库设计制作及初步测试姓名:苏意玲申请学位级别:硕士专业:计算机应用技术指导教师:李坚石;韦元军20070501贵 州 大学硕 士 学位 论 文来, 计 算 机语音 识别 的 应用 有了 长足 的 进 展 , 基于 英语的 特殊地 位 , 世 界 上 对于 英语作 为 第一语言的 语音 数 据库的 设计 和 制 作 已经 很 多 。但 由 于 英语的 日益普 及 , 以英语作 为 第 二 语言的 人们 越 来越 多 , 因此 建立一个 以英语作 为 第 二 语言的 语音 数 据库是 很 有必要 的 。不 同 的 国 家 , 有不 同 的 语言
2、, 其发 音 都 有各 自的 特点, 从 而 影响 了 作 为 第 二 语言的 英语发 音 也出 现了 不 同 的 特色。我 们 这 里 主 要 考 虑在 中 国 地 区 , 设计 与制 作 以英语作 为 第 二 语言本 文 所 做工 作 及 创 新 有以下 : 杂镆羰 菘 饨 辛松 杓啤 谱 骷把 盗纺凸 蹋 笛椴馐 参 数 取 前面 实验 的 结英语 作为 第 二 语 言 的 多媒 体 语 音 数据库 设计 制 作及识 别 测试 璫 甌 本 人郑 重 声 明:所呈 交 的学 位 论 文 , 是 本 人在 导 师的指 导 下 ,独 立进行 研究 所取得的成果 。 除 文 中 已 经注 明引
3、用 的内 容 外 , 本论 文 不 包含 任 何 其 他 个 人或 集 体 已 经发 表 或 撰 写 过 的科 研成果 。对 本 文 的研究 在 做出重 要贡 献的个 人和 集 体 , 均已 在 文 中 以 明确方 式标 明。 本 人完 全 意 识 到本 声 明的法 律 责任 由 本 人承担 。论 文作 者签名:墨 妻日关 于学 位 论 文 使 用 授权的声 明论 文作 者签名:盅 盔逾导师签名:童竺 垒 :贵 州 大学硕 士 学位 论 文论。 人 们 对 计 算 机 语音 的 研 究主 要有以 下 几 个 方面 ;孤 立词莲续 语者孤 立词连 续 语占孤 象 词很 碓较堆很 堆役壤极壤连 续
4、 语普耀词连 续 语青英语 作为 第 二 语 言 的 多媒 体 语 音 数据库 设计 制 作及识 别 测试 语 音 识 别 技术 的 研 究 历 程语 音 识 别 的 研 究 可 以 追溯到二 十 世 纪 五十 年 代 初 ,在 五十 年 代 , 实验 、 贵 州 大学硕 士 学位 论 文有 腖 实 验 室 , 芯 吭 海 珺笛槭 业 取 捎 谟辛薉计 划,我 国 在年 代 末 就开 始 了语音 技术 的研 究, 但在很 长 一 段时间内, 都处于缓 慢 发 展的阶 段, 直 到 八十 年 代 后期 , 随 着 计 算 机应 用技术 在我 国 的逐渐普 及和 数 字 信 号 处理 技术 的进
5、一 步 发 展, 国 内许 多单位 纷纷投 入 到 这项研 究工 作 中去 , 其 中 有 中 科院声学所 , 自动化所, 清 华大学, 四 川 大学和 西 北 工 业 大学等科研 机构 和 高 等 院校 , 大多数 研 究者 致力 于语音 识 别 的基 础 理 论 研 究工 作 、模型 及算 法 的研 究和 改 进 。但由于起 步 晚 、基 础 薄 弱 , 计 算 机水平不发 达 , 导 致在整个八十 年 代 , 我 国 在语音 识 别 研 究方 面 并 没 有 形成自己 的特 色 , 更没 有 取得 显 著 的成果 和 开 发 出大型 性 能 优 良 的实 验 系 统 。但进 入 九十 年
6、 代 后, 我 国 语音 识 别 研 究的步 伐就逐渐紧追 国 际先 进 水平了, 在“八五 ” 、“九五 ”国 家科技的基 础 研 究方 面 也取 得 了一 系 列成果 跖 舻 英语 作为 第 二 语 言 的 多媒 体 语 音 数据库 设计 制 作及识 别 测试在 搜集 的 语 音 数据库 上建立 模 型 , 用 测试 的 语 音 与之 匹 配 , 如 果 模 型 比 较 匹 配测试 语 音 , 则 识 别 率 会 比 较 高 , 我 们 可 以 称 该模 型 是 好 的 模 型 , 该语 音 数据库是 个比 较 成功 的 数据库 ; 反 之 模 型 与测试 的 语 音 不 匹 配 , 识
7、别 率 将 大大降 低,显 然 这 个模 型 就 不 是 好 的 模 型 , 这 个语 音 数据库 也 是 一 个失 败 的 数据库 。 显 然 ,某种语 言 的 语 音 数据库 的 针 对 性很 强 , 建立 在 某种语 言 的 语 音 数据库 的 模 型 只能 测试 该种语 言 , 为 了达到 较 高 的 识 别 率 , 即 使是 同 种语 言 , 其 语 音 数据库 也 贵 州 大学硕 士 学位 论文 本文 所 做工 作及 章 节 安 排英 语 作为第 二语 言 的 多 媒 体 语 音 数 据库 设计制 作及 识别 测试本章 中, 我们还 探 讨 了, 当模型 状 态数 为多 少 时 ,
8、 构建 的 识别 系 统 性 能 最 佳 。第 五 章 首 先介绍 了本文 语 音 数 据库 的 设计及 收 集过 程 芗 4旱 。包括如 何 对 待 收 集的 语 音 数 据库 的 整 体 规划 , 并 介绍 确定 的 录 音 的 内容 及 收 集的文 件存放 命 名方法;然 后 简单介绍 了构建 的 低 常 辛瞬问 特 征参 数数 据测试 :第 六章 是 对 整 个 论 文 的 总 结 , 并 提出 了对 继 续 研究 的 展 望 。贵 州 大学硕 士 学位 论 文认 证 的 技 术 。 说 话 人 识别 和 语音 识别 的 区 别 在 于 ,说 话 人 识别 不 注 重 包 含 在 语音
9、 信 号中的 文 字符号以 及 语义 内容 信 息 ,而是着眼 于 包 含 在 语音 信 号中的 个 人特 征,提 取 说 话 人 的 这 些 个 人 信 息 ,以 达到识别 说 话 人 的 目 的 。 说 话 人 辨 认 有着深刻 的 技 术 背 景,人 类 语言 的 产生 是人 体 语言 中枢与 发音 器 官之 间 一 个 复 杂的生 理物 理过 程 ,人 在 讲 话 时 使 用 的发声 器 官 舌 、牙 齿 、喉 头、肺 、鼻 腔 ,在 尺寸 和 形 态 方面 ,每 个 人 的 差异很 大,所以 任 何 两 个 人 的 声 纹 图谱 都 有差异。每 个 人 的 语音 声 学特 征既有相
10、对 稳定 性 ,又有变异性 ,不 是绝 对 的 、一 成 不 变的 。 这 种 变异可来自 生 理 、病 理 、心 理 、模 拟 、伪 装 ,也 与 环境 干 扰 有关 。 尽管 如此 ,由 于 每 个 人 的 发音 器 官都 不 尽 相 同,因 此 在 一 般情 况 下,人 们 仍 能区别 不 同的 人 的 声 音 或 判 断 是否 是同一 人 的 声 音 。 说 话 人 辨 认 的 基本 原 理 是通 过分 析人 的 发声 和 听觉 ,为 每 一 个 人 构 造一 个 独 一 无 二的 数学模 型 。 然 后 再 由 计算 机 对 模 型 和 实际 输入 的 语音 进 行精 确 匹 配 ,
11、根 据匹 配 结果 辨 认 出 说 话 人 是谁 。该 原 理 同说 话 入 的 生 理 特 性 和 行为 特 性 密 切相 关 。 “人 ” 的 生 物 特 性 既存在 于 声谱 表 面 瓷捞 匦,也 存在 于 声 音 的 来源 或 数个 不 连 续 的 声 音 片 段 中。 从 人的 这 些 特 性 中可以 提 取 出 有效 的 音 频特 征,进 行数学建模 ,并 将与 之 相 关 的 资料存进 数据库 。 服务 器 再 根 据输入 的 音 频特 征在 数据库 里 进 行检 索 ,从 而进行精 确 匹 配 。说 话 人 确 认 一 个 所说 的 ,是“多 选一 ” 问 题; 而后 者 用
12、以 确 认 某 段 语音 是否 是指 定 的 某 个人 所说 的 ,是。 一 对 一 判 别 ”问 题。 不 同的 任 务 和 应 用 会 使 用 不 同的 说 话 人 识别 技 术 ,如缩 小 刑 侦 范 围 时 可能需要 辨 认 技 术 ,丽 银 行交 易 时 则需要 确 认 技 术 。不 管 是辨 认 还是确 认 ,都 需要 先对 说 话 人 的 声 纹 进 行建模 ,这 就 是所谓 的 “训练” 或 “学习 ” 过 程 。关 键词 检 出 ,误警 率之 间 达到很 好 的 平 衡 。贵 州 大学硕 士 学位 论 文人 是当 今世 界 上 最 准 确 的 语言 辨 别 系统 。 只 需要
13、 听数秒 钟的 语音 ,人 就 能够对 自 己是否 了 解 该 语言 的 问 题做 出 判 断 。 对 于 一 种 不 熟 悉 的 语言 ,也 常常能够根 据与 他们 所熟 悉 的 语言 的 近 似 性 做 出 主观判 断 。 各 种 语言 都 有特 征化 的 声 音模 式 。 人 们 将它 们 主观地 描 述 为 语调、节 奏 、喉 音 和 鼻 音 等 ,各 种 语言 之 间 的差异在 于 用 以产生 词 的音 位 学单 元镆羯 舻囊恢 址 掷 的 数量 和种 类 ,以语言 辨 识在 单 一 语言 的 口 语语言 系统 中,用 于 确 定 语音 信 号所包 含 的 内容 ,一 般是以 因 素
14、 识别 与 词 识别 和 句 子 识别 相 配 合 的 方式 来实现 的 。 这 要 求研 究 者萃取 和 利用 较 小 时 段 的 语音 信 息 ,例 如帧 、音 素 、音 节 、予词 单 元 等 来决 定 所讲 语音 的 内容 。 与 此 相 比,在 与 文 本 无 关 的 语音 识别 系统 中,仅利用 音 素 、音节 甚 至 子 词 单 元 ,在 不 同的 语言 中是相 同的 ,语言 识别 系统 需要 把 句 子 作 为 一个 整体 来考 察,以 便决 定 一 种 语言 区 别 于 其 他语言 的 唯 一 的 。 声 学签名 ”。语音 识别 发展到一 定 阶 段 ,世 界 各 国 都 加
15、 快了 语音 识别 应 用 系统 的 研 究 开发,通 常连 续 语音 是含 有较 完整语法信 息 的 连 续 语句 ,最 接 近 于 人 的 自 然 讲 话方式 ,但 从 非连 续 语音 到连 续 语音 的 研 究 面 临 着很 多 完全不 同的 技 术 难 点 ,非连 续 语音 的 识别 是一 些 孤 立 的 声 波 片 段 ,连 续 语音 则面 临 着如何 切分 声 波 的 问题。 诸 如此 类 的 新 问 题使 连 续 语音 识别 率的提 高 比非连 续 语音 更 加 困难 。 因 此非特 定 入 、大词 汇 量 连 续 语音 识别 技 术 就 成 为 语音 识别 领域 的 前 沿 课
16、 题、重 中之 重 。在 语言 学层 次 ,也 以 真 实世 界 大规 模 语料库 为 基础 ,说 话 人 识别 的 主要 方法最常 使 用 的是隐马尔可夫模型方法 , 它是一 种 基于 转移 概 率 和 传 输 概 语 音 识 别 系统的 基本结构贵 州 大学硕 士 学位 论 文 鮦语 音采样根 据 裳 恚 绻 庑 藕 诺 钠灯 状 硎 怯 邢 薜 例 如不 包含英语 作 为第 二 语 言 的 多媒 体 语 音 数据 库 设计 制 作 及 识 别 测 试 咝 哉 穹 对数振 幅 谱譬 咝 哉 穹 对数振 幅 谱次 是 要 用高通 滤波器 抑 制 的 电 源 干扰 。从总的 效 果 来看 ,
17、预滤波处理 相 当于使用 一 个带通 滤波器 对 语 音 进 行处理 。进 行预滤波处理 后 , 再 采用 合 适 的 采样频 率进 行采样。目前, 设 计较 好 的 声卡 通 常 都 带有 带通 滤波器 。语 音 信号 采集只 是 语 音 信号 处理 的 开始, 在此 基础上 , 要 对 所采集的 语 音信号 进 行分析 处理 , 从中 抽 取 语 音 识 别 所需 的 信号 特 征 。由于语 音 信号 的 平 均功率谱受 声门激励和 口 鼻 辐射 的 影 响 , 语 音 信号 从嘴唇 辐射 后 有 疧 镀 党 的衰 减。因 此 , 在对 语 音 信号 进 行分析 之前,一 般 要 对 语
18、音 信号 加以 提升 , 提升 的 方法有 两种 : 其 一 是 用模 拟 电 路 实 现; 其二 是 用数字电 路 实 现。采用 数字电 路 实 现 疧 预加重 的 数字滤波器 的 形 式为 :施以 某种 运算 , 其一 般 式 为 :输 入 语 音 信号 序 列。蜴是 所有 各 段 经 过 处理 后 得 到 的 一 个时 间 序 列。 用得 最 多 的三 种 窗函 数是 矩 形窗、 哈 明 窗 眎 耗 ,其 定 义 分别 为 : 畁 人 一 八八短 时 平 均 能量可用 于:因 此 在 实 际使用 时 需加 以 处 理, 例 如 取对 数 等 , 以 便 将 数 值 限 制 在 一 定 的
19、范 围发 生 了 过 零, 过 零率磊 是 指 单 位 时 间 内信号 由 正 变 负、 由 负变 正 的总 次 数 , 短卜 一 其 中 掣 冈 是 三句 话 的平 均 过 零率 降 :除 非是 在 信 噪 比极高的 声 学 环 境 中 ,从背 景噪 声 中 鉴别 语 音 的 问 题 不是 简单的 事 情。 在 背 景噪 声 较小时 用 短时 能量 鉴别 端点较为 有 效 ,而在 背 景噪 声 较大 使 用 短时 平 均 过 零 率 鉴别 端点较为 有 效 。 但 是研 究 表 明 ,在 以 某 些 音 为 开 头或 结 尾时 ,只 用 其 中 一 个参 量 来 识 别 语 音 的 起 点和
20、 终 点是 有 困难 的 ,必 须 同时使 用 这两个参 数。在 比较安 静 的 环 境 下,仅 依靠 短时 能量 与 过 零 率 这两个特征 就 可 以 较好地完 成 语 音 信 号的 起 止点判断 和 信 号的 浊 清 音 判决 芯 。 但 需要指出 的是,这两个特征 比较容 易 受外界 噪 声 的 干 扰 ,鲁棒 性 较差 。 当 语 音信 号的 信 噪 比较低 时 ,信 号的 短时 能量 和 过 零 率 将受到很大 的 影 响 。 目 前有 专门的 一 个方向 研 究 噪声 环 境下的 语 音 端点检 测问 题 。贵 州 大学硕 士 学位 论 文语音 短时 能 量 大多 数情况下 都
21、在 此 门 限 之 上 。 这 样 可 以进 行一次粗 判 :语音 起止点 位 于 该 门 限 与短时 能 量 包 络 交点 所 对 应 的 时 间间隔 之 外 碅沃 然 后 根 据 背 景 噪声的 平 均能 量 确 定 一个 较 低的 门 限 比 ,并从 阃 螅 覤 点往 右 搜索,分别 找 到 短时 能 量 包 络 第一次与门 限 相交的 两 个 点 虳 ,于 是段就 是用双 门 限 方法根 据 短时 能 量 所 判 定 的 语音 段。 以上 只 是完成了第一级法 , 以 保 证语 音 识 别 的 实时 实现 。并 设 线 性预 测倒谱系 数 在获得 线 性预 测系 数后, 可 以用一 个
22、 递 推 公 式 计 算 得 出 。行 卷积, 最 后对各 个 滤波 器 的 输 出 构 成 的 向量进 行 离散 余 弦反 变 换 , 取 前 蓝 当 甑蛊 紫 凳 猚 贵 州 大学硕 士 学位 论 文计算美尔 坐 标上的能 量 谱 经过 此滤波器 的输出 :式 中 , 5趇 帧语音 信号 , 5趍个 倒 谱 系数, 琾 珺为 常英语 作为 第 二 语 言 的 多媒 体 语 音 数据库 设计 制 作及识 别 测试鱁将 动 态 信息和静 态 信息结合 得 到 识 别 效 果 最英语 作为 第 二 语 言 的 多媒 体 语 音 数据库 设计 制 作及识 别 测试语 音 识 别 常 用 算 法 有
23、 基 于神经 网 络 的 训练 和 识 别 算 法 、 基 于动 态 时间 规 整匹配 的 侗鹚惴 突谕 臣 频 囊 矶 煞 蚰 训练 和 识 别 算 法 。无 论 采用 什 么 模型 和 算 法 , 都有 一个 模型 蚰 的 训练 问题。 因为 从 本 质上 讲 , 语 音 识 别 过 程就 是 一个 模板 匹配 的 过 程, 模板 训练 的 好坏 直 接 关系 到语音 识 别 系 统 识 别 率 的 高 低 。 为 了 得到一个 好的 模板 , 往 往 需 要有 大 量的 原始语音 数据来 训练 这个 语 音 模型 , 特 别 是 对于非特 定人 的 语 音 识 别 系 统 来 说 , 这
24、一点 就 显得更 为 重 要。 因此 , 在开始进 行 语 音 识 别 研 究 之 前, 首 先 要建立起 一个语 音 数据库 , 数据库 包 括 具 有 不 同性别 、 年 龄 、 口 音 的 说 话人 的 声 音 , 并且 必须要有 代 表性, 能 均 衡 地反映 实 际使用 情 况 。 否 则, 用 这种 语 音 数据库 训练 出来 的 语 音 模型 蚰 就 很 难 得到满意 的 识 别 效果 。 模板 训练 是 指 按照一定的 准则, 从 大 量已 知 模式 中 获取 表征该模式 本 质特 征的 模板 参 数。琗 ,贵 州 大学硕 士 学位 论 文英语 作为 第 二 语 言 的 多媒 体 语 音 数据库 设计 制 作及识 别 测试是 必不 可少 的 。 琽 的 方 法 , 通 过 找 出点 检测的 影 响 , 可使语 音 分 段 更 加 简 单 如设:参 考 模板 特 征矢 量 序 列 为 口畁餩 。, 埘 伽 矿 籢 定 条 件 的 时 间 规 整 函 数 描 述输 入 模板 与参 考 模板 的 时 间 对 应关 系 , 求 解两动 态 规 划 是 一 种最 优化 算法 , 它 把 一 个 锥 尉 霾 吖 袒 狽 个单 阶 段 的中, 规 整 函 数 满足 一 定 的 约 束 条 件 , 它 们 是 边 界 条 件 : , 矶 煞蚰 最 开 始 出 现 在等 人的