1、语音识别技术综述电子信息工程 2010 级 1 班 郭珊珊【摘要】随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,该技术的发展和应用改变了人们的生产和生活方式,正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。【关键词】语音识别;语音识别原理;语音识别发展;产品语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。1 语音识别的原理语音识别系统本质是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单位元。未知
2、语音经过话筒变换成电信号后加载识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需的模板。计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。2 语音识别系统的分类语 音 识 别 系 统 可 以 根 据 对 输 入 语 音 的 限 制 加 以 分 类 。 2.1 从 说 话 者 与
3、识 别 系 统 的 相 关 性 考 虑可 以 将 识 别 系 统 分 为 3 类 : (1)特 定 人 语 音 识 别 系 统 : 仅 考 虑 对 于 专 人 的 话 音 进 行识 别 ; (2)非 特 定 人 语 音 系 统 : 识 别 的 语 音 与 人 无 关 , 通 常 要 用 大 量 不 同 人 的 语 音 数 据库 对 识 别 系 统 进 行 学 习 ; (3)多 人 的 识 别 系 统 : 通 常 能 识 别 一 组 人 的 语 音 , 或 者 成 为 特定 组 语 音 识 别 系 统 , 该 系 统 仅 要 求 对 要 识 别 的 那 组 人 的 语 音 进 行 训 练 。 2
4、.2 从 说 话 的 方 式 考 虑也 可 以 将 识 别 系 统 分 为 3 类 : (1)孤 立 词 语 音 识 别 系 统 : 孤 立 词 识 别 系 统 要 求 输 入每 个 词 后 要 停 顿 ; (2)连 接 词 语 音 识 别 系 统 : 连 接 词 输 入 系 统 要 求 对 每 个 词 都 清 楚 发 音 ,一 些 连 音 现 象 开 始 出 现 ; (3)连 续 语 音 识 别 系 统 : 连 续 语 音 输 入 是 自 然 流 利 的 连 续 语 音输 入 , 大 量 连 音 和 变 音 会 出 现 。 2.3 从 识 别 系 统 的 词 汇 量 大 小 考 虑也 可 以
5、 将 识 别 系 统 分 为 3 类 : (1)小 词 汇 量 语 音 识 别 系 统 。 通 常 包 括 几 十 个 词 的 语音 识 别 系 统 。 (2)中 等 词 汇 量 的 语 音 识 别 系 统 。 通 常 包 括 几 百 个 词 到 上 千 个 词 的 识 别 系统 。 (3)大 词 汇 量 语 音 识 别 系 统 。 通 常 包 括 几 千 到 几 万 个 词 的 语 音 识 别 系 统 。 随 着 计 算机 与 数 字 信 号 处 理 器 运 算 能 力 以 及 识 别 系 统 精 度 的 提 高 , 识 别 系 统 根 据 词 汇 量 大 小 进 行分 类 也 不 断 进
6、行 变 化 。 目 前 是 中 等 词 汇 量 的 识 别 系 统 到 将 来 可 能 就 是 小 词 汇 量 的 语 音 识别 系 统 。 这 些 不 同 的 限 制 也 确 定 了 语 音 识 别 系 统 的 困 难 度 。3 语音识别技术的发展3.1 国 外 研 究 历 史 及 现 状语 音 识 别 的 研 究 工 作 可 以 追 溯 到 20 世 纪 50 年 代 AT&T 贝 尔 实 验 室 的 Audry 系 统 ,它 是 第 一 个 可 以 识 别 十 个 英 文 数 字 的 语 音 识 别 系 统 。 但 真 正 取 得 实 质 性 进 展 , 并 将 其 作 为 一 个 重
7、要 的 课 题 开 展 研 究 则 是 在 60 年 代 末70 年 代 初 。 这 首 先 是 因 为 计 算 机 技 术 的 发 展 为 语 音 识 别 的 实 现 提 供 了 硬 件 和 软 件 的 可能 , 更 重 要 的 是 语 音 信 号 线 性 预 测 编 码 ( LPC) 技 术 和 动 态 时 间 规 整 ( DTW) 技 术 的 提出 , 有 效 的 解 决 了 语 音 信 号 的 特 征 提 取 和 不 等 长 匹 配 问 题 。 这 一 时 期 的 语 音 识 别 主 要 基于 模 板 匹 配 原 理 , 研 究 的 领 域 局 限 在 特 定 人 , 小 词 汇 表
8、的 孤 立 词 识 别 , 实 现 了 基 于 线 性预 测 倒 谱 和 DTW 技 术 的 特 定 人 孤 立 词 语 音 识 别 系 统 ; 同 时 提 出 了 矢 量 量 化 (VQ)和 隐 马尔 可 夫 模 型 (HMM)理 论 。 随 着 应 用 领 域 的 扩 大 , 小 词 汇 表 、 特 定 人 、 孤 立 词 等 这 些 对 语 音 识 别 的 约 束 条 件 需要 放 宽 , 与 此 同 时 也 带 来 了 许 多 新 的 问 题 : 第 一 , 词 汇 表 的 扩 大 使 得 模 板 的 选 取 和 建 立发 生 困 难 ; 第 二 , 连 续 语 音 中 , 各 个 音
9、 素 、 音 节 以 及 词 之 间 没 有 明 显 的 边 界 , 各 个 发 音单 位 存 在 受 上 下 文 强 烈 影 响 的 协 同 发 音 ( Co-articulation) 现 象 ; 第 三 , 非 特 定 人识 别 时 , 不 同 的 人 说 相 同 的 话 相 应 的 声 学 特 征 有 很 大 的 差 异 , 即 使 相 同 的 人 在 不 同 的 时间 、 生 理 、 心 理 状 态 下 , 说 同 样 内 容 的 话 也 会 有 很 大 的 差 异 ; 第 四 , 识 别 的 语 音 中 有 背景 噪 声 或 其 他 干 扰 。 因 此 原 有 的 模 板 匹 配
10、方 法 已 不 再 适 用 。 实 验 室 语 音 识 别 研 究 的 巨 大 突 破 产 生 于 20 世 纪 80 年 代 末 : 人 们 终 于 在 实 验 室 突破 了 大 词 汇 量 、 连 续 语 音 和 非 特 定 人 这 三 大 障 碍 , 第 一 次 把 这 三 个 特 性 都 集 成 在 一 个 系统 中 , 比 较 典 型 的 是 卡 耐 基 梅 隆 大 学 (CarnegieMellonUniversity)的 Sphinx 系 统 ,它 是 第 一 个 高 性 能 的 非 特 定 人 、 大 词 汇 量 连 续 语 音 识 别 系 统 。 这 一 时 期 , 语 音
11、识 别 研 究 进 一 步 走 向 深 入 , 其 显 著 特 征 是 HMM 模 型 和 人 工 神 经 元网 络 (ANN)在 语 音 识 别 中 的 成 功 应 用 。 HMM 模 型 的 广 泛 应 用 应 归 功 于 AT&TBell 实 验 室Rabiner 等 科 学 家 的 努 力 , 他 们 把 原 本 艰 涩 的 HMM 纯 数 学 模 型 工 程 化 ,从 而 为 更 多 研 究者 了 解 和 认 识 , 从 而 使 统 计 方 法 成 为 了 语 音 识 别 技 术 的 主 流 。 统 计 方 法 将 研 究 者 的 视 线 从 微 观 转 向 宏 观 , 不 再 刻
12、意 追 求 语 音 特 征 的 细 化 , 而 是 更多 地 从 整 体 平 均 ( 统 计 ) 的 角 度 来 建 立 最 佳 的 语 音 识 别 系 统 。 在 声 学 模 型 方 面 , 以Markov 链 为 基 础 的 语 音 序 列 建 模 方 法 HMM( 隐 式 Markov 链 ) 比 较 有 效 地 解 决 了 语 音信 号 短 时 稳 定 、 长 时 时 变 的 特 性 , 并 且 能 根 据 一 些 基 本 建 模 单 元 构 造 成 连 续 语 音 的 句 子模 型 , 达 到 了 比 较 高 的 建 模 精 度 和 建 模 灵 活 性 。 在 语 言 层 面 上 ,
13、 通 过 统 计 真 实 大 规 模 语料 的 词 之 间 同 现 概 率 即 N 元 统 计 模 型 来 区 分 识 别 带 来 的 模 糊 音 和 同 音 词 。 另 外 , 人 工神 经 网 络 方 法 、 基 于 文 法 规 则 的 语 言 处 理 机 制 等 也 在 语 音 识 别 中 得 到 了 应 用 。 20 世 纪 90 年 代 前 期 , 许 多 著 名 的 大 公 司 如 IBM、 苹 果 、 AT T 和 NTT 都 对 语 音 识别 系 统 的 实 用 化 研 究 投 以 巨 资 。 语 音 识 别 技 术 有 一 个 很 好 的 评 估 机 制 , 那 就 是 识
14、别 的 准确 率 , 而 这 项 指 标 在 20 世 纪 90 年 代 中 后 期 实 验 室 研 究 中 得 到 了 不 断 的 提 高 。 比 较 有代 表 性 的 系 统 有 : IBM 公 司 推 出 的 ViaVoice 和 DragonSystem 公 司 的NaturallySpeaking,Nuance 公 司 的 NuanceVoicePlatform 语 音 平 台 , Microsoft 的Whisper,Sun 的 VoiceTone 等 。 其 中 IBM 公 司 于 1997 年 开 发 出 汉 语 ViaVoice 语 音 识 别 系 统 , 次 年 又 开 发
15、 出 可 以识 别 上 海 话 、 广 东 话 和 四 川 话 等 地 方 口 音 的 语 音 识 别 系 统 ViaVoice98。 它 带 有 一 个32,000 词 的 基 本 词 汇 表 , 可 以 扩 展 到 65,000 词 ,还 包 括 办 公 常 用 词 条 , 具 有 “纠 错机 制 ”, 其 平 均 识 别 率 可 以 达 到 95%。 该 系 统 对 新 闻 语 音 识 别 具 有 较 高 的 精 度 , 是 目 前具 有 代 表 性 的 汉 语 连 续 语 音 识 别 系 统 。 3.2 国 内 研 究 历 史 及 现 状我 国 语 音 识 别 研 究 工 作 起 步
16、于 五 十 年 代 , 但 近 年 来 发 展 很 快 。 研 究 水 平 也 从 实 验 室逐 步 走 向 实 用 。 从 1987 年 开 始 执 行 国 家 863 计 划 后 , 国 家 863 智 能 计 算 机 专 家 组 为语 音 识 别 技 术 研 究 专 门 立 项 , 每 两 年 滚 动 一 次 。 我 国 语 音 识 别 技 术 的 研 究 水 平 已 经 基 本上 与 国 外 同 步 , 在 汉 语 语 音 识 别 技 术 上 还 有 自 己 的 特 点 与 优 势 , 并 达 到 国 际 先 进 水 平 。中 科 院 自 动 化 所 、 声 学 所 、 清 华 大 学
17、 、 北 京 大 学 、 哈 尔 滨 工 业 大 学 、 上 海 交 通 大 学 、中 国 科 技 大 学 、 北 京 邮 电 大 学 、 华 中 科 技 大 学 等 科 研 机 构 都 有 实 验 室 进 行 过 语 音 识 别方 面 的 研 究 , 其 中 具 有 代 表 性 的 研 究 单 位 为 清 华 大 学 电 子 工 程 系 与 中 科 院 自 动 化 研 究所 模 式 识 别 国 家 重 点 实 验 室 。 清 华 大 学 电 子 工 程 系 语 音 技 术 与 专 用 芯 片 设 计 课 题 组 , 研 发 的 非 特 定 人 汉 语 数 码 串连 续 语 音 识 别 系 统
18、 的 识 别 精 度 , 达 到 94.8%( 不 定 长 数 字 串 ) 和 96.8%( 定 长 数 字 串 )。 在 有 5%的 拒 识 率 情 况 下 , 系 统 识 别 率 可 以 达 到 96.9%( 不 定 长 数 字 串 ) 和98.7%( 定 长 数 字 串 ) , 这 是 目 前 国 际 最 好 的 识 别 结 果 之 一 , 其 性 能 已 经 接 近 实 用 水 平 。研 发 的 5000 词 邮 包 校 核 非 特 定 人 连 续 语 音 识 别 系 统 的 识 别 率 达 到 98.73%, 前 三 选 识别 率 达 99.96%; 并 且 可 以 识 别 普 通
19、话 与 四 川 话 两 种 语 言 , 达 到 实 用 要 求 。 中 科 院 自 动 化 所 及 其 所 属 模 式 科 技 (Pattek)公 司 2002 年 发 布 了 他 们 共 同 推 出 的面 向 不 同 计 算 平 台 和 应 用 的 “天 语 ”中 文 语 音 系 列 产 品 PattekASR, 结 束 了 中 文语 音 识 别 产 品 自 1998 年 以 来 一 直 由 国 外 公 司 垄 断 的 历 史 。 4 语 音 识 别 的 方 法一 般 来 说 ,语 音 识 别 的 方 法 有 三 种 : 基 于 声 道 模 型 和 语 音 知 识 的 方 法 、 模 板 匹
20、 配 的方 法 以 及 利 用 人 工 神 经 网 络 的 方 法 。 4.1 基 于 语 音 学 和 声 学 的 方 法该 方 法 起 步 较 早 , 在 语 音 识 别 技 术 提 出 的 开 始 , 就 有 了 这 方 面 的 研 究 , 但 由 于 其 模型 及 语 音 知 识 过 于 复 杂 , 现 阶 段 没 有 达 到 实 用 的 阶 段 。 通 常 认 为 常 用 语 言 中 有 有 限 个 不 同 的 语 音 基 元 , 而 且 可 以 通 过 其 语 音 信 号 的 频 域 或时 域 特 性 来 区 分 。 这 样 该 方 法 分 为 两 步 实 现 : 第 一 步 , 分
21、 段 和 标 号 把 语 音 信 号 按 时 间 分 成 离 散 的 段 , 每 段 对 应 一 个 或 几 个 语 音 基 元 的 声 学 特 性 。 然 后根 据 相 应 声 学 特 性 对 每 个 分 段 给 出 相 近 的 语 音 标 号 第 二 步 , 得 到 词 序 列 根 据 第 一 步 所 得 语 音 标 号 序 列 得 到 一 个 语 音 基 元 网 格 , 从 词 典 得 到 有 效 的 词 序 列 ,也 可 结 合 句 子 的 文 法 和 语 义 同 时 进 行 。 4.2 模 板 匹 配 的 方 法模 板 匹 配 的 方 法 发 展 比 较 成 熟 , 目 前 已 达
22、到 了 实 用 阶 段 。 在 模 板 匹 配 方 法 中 , 要 经过 四 个 步 骤 : 特 征 提 取 、 模 板 训 练 、 模 板 分 类 、 判 决 。 常 用 的 技 术 有 三 种 : 动 态 时 间 规整 (DTW)、 隐 马 尔 可 夫 ( HMM) 理 论 、 矢 量 量 化 ( VQ) 技 术 。 4.2.1 动 态 时 间 规 整 (DTW) 语 音 信 号 的 端 点 检 测 是 进 行 语 音 识 别 中 的 一 个 基 本 步 骤 , 它 是 特 征 训 练 和 识 别 的 基础 。 所 谓 端 点 检 测 就 是 在 语 音 信 号 中 的 各 种 段 落 (
23、如 音 素 、 音 节 、 词 素 )的 始 点 和 终 点的 位 置 , 从 语 音 信 号 中 排 除 无 声 段 。 在 早 期 , 进 行 端 点 检 测 的 主 要 依 据 是 能 量 、 振 幅 和过 零 率 。 但 效 果 往 往 不 明 显 。 60 年 代 日 本 学 者 Itakura 提 出 了 动 态 时 间 规 整 算 法(DTW: DynamicTimeWarping)。 算 法 的 思 想 就 是 把 未 知 量 均 匀 的 升 长 或 缩 短 ,直 到 与 参考 模 式 的 长 度 一 致 。 在 这 一 过 程 中 , 未 知 单 词 的 时 间 轴 要 不
24、均 匀 地 扭 曲 或 弯 折 , 以 使 其特 征 与 模 型 特 征 对 正 。 4.2.2 隐 马 尔 可 夫 法 (HMM) 隐 马 尔 可 夫 法 (HMM)是 70 年 代 引 入 语 音 识 别 理 论 的 , 它 的 出 现 使 得 自 然 语 音 识 别系 统 取 得 了 实 质 性 的 突 破 。 HMM 方 法 现 已 成 为 语 音 识 别 的 主 流 技 术 , 目 前 大 多 数 大 词 汇量 、 连 续 语 音 的 非 特 定 人 语 音 识 别 系 统 都 是 基 于 HMM 模 型 的 。 HMM 是 对 语 音 信 号 的 时间 序 列 结 构 建 立 统
25、计 模 型 , 将 之 看 作 一 个 数 学 上 的 双 重 随 机 过 程 : 一 个 是 用 具 有 有 限 状态 数 的 Markov 链 来 模 拟 语 音 信 号 统 计 特 性 变 化 的 隐 含 的 随 机 过 程 , 另 一 个 是 与Markov 链 的 每 一 个 状 态 相 关 联 的 观 测 序 列 的 随 机 过 程 。 前 者 通 过 后 者 表 现 出 来 , 但 前者 的 具 体 参 数 是 不 可 测 的 。 人 的 言 语 过 程 实 际 上 就 是 一 个 双 重 随 机 过 程 , 语 音 信 号 本 身是 一 个 可 观 测 的 时 变 序 列 ,
26、是 由 大 脑 根 据 语 法 知 识 和 言 语 需 要 (不 可 观 测 的 状 态 )发 出的 音 素 的 参 数 流 。 可 见 HMM 合 理 地 模 仿 了 这 一 过 程 , 很 好 地 描 述 了 语 音 信 号 的 整 体 非平 稳 性 和 局 部 平 稳 性 ,是 较 为 理 想 的 一 种 语 音 模 型 。 4.2.3 矢 量 量 化 (VQ) 矢 量 量 化 (VectorQuantization)是 一 种 重 要 的 信 号 压 缩 方 法 。 与 HMM 相 比 ,矢 量量 化 主 要 适 用 于 小 词 汇 量 、 孤 立 词 的 语 音 识 别 中 。 其
27、过 程 是 : 将 语 音 信 号 波 形 的 k 个样 点 的 每 一 帧 , 或 有 k 个 参 数 的 每 一 参 数 帧 , 构 成 k 维 空 间 中 的 一 个 矢 量 , 然 后 对 矢量 进 行 量 化 。 量 化 时 , 将 k 维 无 限 空 间 划 分 为 M 个 区 域 边 界 , 然 后 将 输 入 矢 量 与 这 些边 界 进 行 比 较 , 并 被 量 化 为 “距 离 ”最 小 的 区 域 边 界 的 中 心 矢 量 值 。 矢 量 量 化 器 的 设计 就 是 从 大 量 信 号 样 本 中 训 练 出 好 的 码 书 , 从 实 际 效 果 出 发 寻 找
28、到 好 的 失 真 测 度 定 义 公式 , 设 计 出 最 佳 的 矢 量 量 化 系 统 , 用 最 少 的 搜 索 和 计 算 失 真 的 运 算 量 , 实 现 最 大 可 能 的平 均 信 噪 比 。 核 心 思 想 可 以 这 样 理 解 : 如 果 一 个 码 书 是 为 某 一 特 定 的 信 源 而 优 化 设 计 的 , 那 么 由这 一 信 息 源 产 生 的 信 号 与 该 码 书 的 平 均 量 化 失 真 就 应 小 于 其 他 信 息 的 信 号 与 该 码 书 的 平均 量 化 失 真 , 也 就 是 说 编 码 器 本 身 存 在 区 分 能 力 。 在 实
29、际 的 应 用 过 程 中 , 人 们 还 研 究 了 多 种 降 低 复 杂 度 的 方 法 , 这 些 方 法 大 致 可 以 分为 两 类 : 无 记 忆 的 矢 量 量 化 和 有 记 忆 的 矢 量 量 化 。 无 记 忆 的 矢 量 量 化 包 括 树 形 搜 索 的 矢量 量 化 和 多 级 矢 量 量 化 。 4.3 神 经 网 络 的 方 法利 用 人 工 神 经 网 络 的 方 法 是 80 年 代 末 期 提 出 的 一 种 新 的 语 音 识 别 方 法 。 人 工 神 经网 络 (ANN)本 质 上 是 一 个 自 适 应 非 线 性 动 力 学 系 统 , 模 拟
30、了 人 类 神 经 活 动 的 原 理 , 具 有自 适 应 性 、 并 行 性 、 鲁 棒 性 、 容 错 性 和 学 习 特 性 , 其 强 的 分 类 能 力 和 输 入 -输 出 映 射能 力 在 语 音 识 别 中 都 很 有 吸 引 力 。 但 由 于 存 在 训 练 、 识 别 时 间 太 长 的 缺 点 , 目 前 仍 处 于实 验 探 索 阶 段 。 由 于 ANN 不 能 很 好 的 描 述 语 音 信 号 的 时 间 动 态 特 性 , 所 以 常 把 ANN 与 传 统 识 别 方法 结 合 , 分 别 利 用 各 自 优 点 来 进 行 语 音 识 别 。5 语音识别
31、产品语音识别产品技术的应用可以分为两个发展方向:一个方向是大词汇量连续语音识别系统,主要应用于计算机的听写机,以及与电话网或者互联网相结合的语音信息查询服务系统,这些系统都是在计算机平台上实现的;另外一个重要的发展方向是小型化、便携式语音产品的应用,如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用,这些应用系统大都使用专门的硬件系统实现,特别是近几年来迅速发展的语音信号处理专用芯片(Application Specific Integrated Circuit,ASIC)和语音识别片上系统(System on Chip,SOC )的出现,为其广泛应用创造了极为有利的条件。
32、5.1 Nuance 的 Dragon Dictation Dragon Dictation(中文名称:声龙听写)是由 Nuance 公司推出的适用于 iPhone,iPad和 iPod touch 用户的一款语音识别应用软件,将用户的语音转换成文字。软件目前支持美国英语、英国英语、澳大利亚英语、法语、德语、意大利语、西班牙语、日语、韩语和中文。Dragon Dictation 可以将我们说的话转换成文字,然后直接发送短信、电子邮件 或是发布到微博等 SNS 网站上。使用剪贴板粘贴语音转成的文本保存,做其他用途。同时还有有智能选字、选词的列表建议。语音操控的修正界面为用户提供了更方便的修正功能
33、。5.2 Google 公司的 Voice Actions Voice Actions 是 google 推出的语音搜索应用程序,通过它,你可以用语音给运行 Voice Actions 的 手机下命令,诸如发信息、打电话、听音乐等。它提供了非常坚实可靠的声音识别引擎,较高识别度令人称奇。并且它也推出了针对中国用户的中文版。 5.3 苹果公司的 SiriSiri 是苹果公司在其产品 iphone4s 上应用的一项语音控制功能。技术来源于美国国防部高级研究规划局所公布的 CALO 计划:一个让军方简化处理一些繁复庶务,并具学习、组织以及认知能力的数字助理,其所衍生出来的民用版软件 Siri 虚拟个
34、人助理。Siri 可以令 iPhone4S 变身为一台智能化机器人,利用 Siri 用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。Siri 可以支持自然语言输入,并且可以调用系统自带的天气预报、日程安排、搜索资料等应用。还能够不断学习新的声音和语调,提供对话式的应答。Siri 目前支持四种语言:英文,法文,德文,日语。其中英文分美式,英式,澳大利亚式。5.4 VocreVorce 是一款非常受欢迎的 iPhone 口译应用,它旨在帮助经常处于不同语言环境中的人们轻松突破语言障碍、实现自由沟通。有了 Vocre,你在与外国人聊天时,只需打开 Vocre,选择对方的语言和性别,剩下的
35、事情 Vocre 会帮你解决。当你的 iPhone 竖着放时对它讲话,把它横过来,它会自动翻译你对它说的话。Vocre 通过 Nuance 将语音转换成文字,通过他们自己的众包机器学习技术,将文字翻译之后,再通过 iSpeech 重新将文字转换成语音。通过 Vorce 软件,来自不同国家有不同语言背景的两个人可以自由交流。5.5 IBM 的 ViaVoice 和微软的 Speech SDK IBM ViaVoice 是一种通过麦克风输入中文的一种程序。特别适合电脑初学者,您所需要做的仅仅是对着话筒喊出您要输入的字符,ViaVoice 就会自动判断并且帮你输入汉字。作为语音识别软件系列的产品,它
36、可以使 PC、手提设备、汽车系统和自动客户服务系统之间的信息交流变得轻松快捷。作为第一个全功能的语音指令桌面程序,运行在 Windows 下的 ViaVoice 支持 Microsoft Office 2003,为不同要求的用户提供了精确的语音识别技术。与其它语音识别系统一样,它能够不断学习和适应用户的特定语音,并不断提高识别的准确度。ViaVoice 同样可以对识别出来的文本进行修改纠错,这也让软件变的更加实用。6.总结与展望总结当前语音识别产品市场,语音识别产品在我们生活的各个领域有着越来越广泛的应用。从移动终端到 PC 终端,从电信行业到汽车行业,语音识别产品的出现极大的方便了我们的生活
37、,为我们提供了一种更为亲切便捷的人机交互方式。同时,智能语音行业具有很高的行业技术壁垒,必须有时间的积累和资金的投入才能做出适应市场需求的产品。我们可以发现当前市场上主流的语音识别产品都是诸如 google、微软、苹果这样的行业巨头推出来。对比国内和国外的相应语音识别产品,国内语音市场主要以语音合成为主,国外语音市场主要以语音识别为主,国内的技术发展水平相比国外仍然存在一定的差距,这也激励我们要用更大的付出去努力追赶。展望未来语音识别产品,以产业界为创新主体,包括语音识别在内的信息处理发展将需要迫切与云计算相结合,从计算、存储和群体智慧等全方位产生新的突破是可以预期的。未来语音识别市场还有很大潜力可以挖掘,出现爆发式增长也是指日可待。相信未来随着科技的发展,语音识别产品终将走入寻常百姓家为人们的生活提供更大的便捷。