收藏 分享(赏)

一种深度神经网络声学模型训练方法.pdf

上传人:wrn 文档编号:15707341 上传时间:2023-01-14 格式:PDF 页数:4 大小:273.86KB
下载 相关 举报
一种深度神经网络声学模型训练方法.pdf_第1页
第1页 / 共4页
一种深度神经网络声学模型训练方法.pdf_第2页
第2页 / 共4页
一种深度神经网络声学模型训练方法.pdf_第3页
第3页 / 共4页
亲,该文档总共4页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 2019 年中国电机工程学会年会论文集 一种深度神经网络声学模型训练方法 杨维 国网客服中心,天津 300000;A deep neural network acoustic model training method Yang Wei China Grid Customer Service Center,Tianjin.摘要:针对同 种语 言不同 口音 的识别 一直是 语音 识别领 域里 的一个 重要话 题,尤其是 在客 服领域 语音识 别系 统所实际面临 急需解 决一 种困难。本 文引入 了语言 向量,并通 过多 任务学 习这种 方法 将语言 向量 引入深 度神经 网络 声学模型的训练当

2、中去,改善了普通话发音和重口音普通话发音的语音识别系统的性能。关键词:深度神经网络;声学模型;多任务学习 ABSTRACT:The recognition of different accents of the same language has been an important topic in the field of speech recognition especially in the field of customer service speech recognition system which is faced with an urgent need to solve.In

3、this paper,language vectors are introduced into the training of deep neural network acoustic model through multi-task learning,and the performance of speech recognition system for heavy accent mandarin pronunciation is improved.KEY WORD:deep neural network;acoustic model;Multi-task learning 1 引言 近年来

4、,随着 计算能力的 增加和大数据 的积累,深度 神经网 络(Deep Neural Networks,DNNs)越 来越体 现出它 的潜 力123。DNNs在语音识别领域更是得到了广泛的应用456。DNNs 对特征的自动提取能力使得DNNs 对数 据的 特征 表示不 仅 更适 宜于 分类 任务的解决,而且 由于 每个 隐 层都是 之前 输入 的非 线性变化,与传统的人工手工标记方法不同的是DNNs 能够 学习 到特 征的 逐层递 进关 系78。随着社会的发 展,传统的 单语音识别系 统已经不 能满 足人 们日 益多 元化的 需求,多语 言或跨语言 语音 识别 系统 受到 越来越 多重 视。然而

5、,相比于 单语 音识 别系 统,多语言 或跨 语言 语音 识别系统 存在 着声 学模 型不 够精确 和有 效,模 型的训练更 加耗 费时 间和 资源,以 及对 含有 混杂 语音场景的鲁棒性较差等问题910。在实际应用中,同一 种语 言的 使用 者 的口音 也直 接影 响系 统的识别 效果,混合 了标 准 音和重 口音 的语 音识 别系统也可以看做多语言或跨语言语音识别系统需要解 决的 问题 之一。本文以普通话 发音和地方 口音普通话为 研究对象,引入语言向量,采用多任务学习(Multi-task Learning)这 种方法 加 强了 DNNs 的特征表征能力,提高了混合语音识别系统的准确率。

6、本 文先引入“语言 向量”的概 念;接着 描述了多任务学习这种方法;再将语言向量与 DNN相结合,依托多 任务 学习 方法构 造声 学模 型;最后是实 验设 置与 结果 分析。2 语言向量 通过普通话语 音数据训练 出相应的模型 对于普通 话的 识别 率较 好,针对口 音较 重的 地方 方言 识 别率 较低。本文 所采用 的 语音 识别 系统 面向普通话 及口 音较 重的 地方 普通话,对于 一个 已经训练成 型的 语音 识别 系统 来说,识 别率 越高 就意味着的 对普 通话 的识 别分 辨是越 强的。如果 能将本语音 识别 系统 对一 种语 言(或语 音)类别 的分辨能力 单独 地提 取出

7、 来,可以反 过来 积 极的 提高同 类 语音 识别 性能。对此,作者 引入“语言 向量”的概念,用来 标明 一种 语 音到底 属于 同种 语言 的哪类发 音的 一个 向量。这 样,如果 多维的 语言 向 2019 年中国电机工程学会年会论文集 量落于 相同 局部 向量 空间,那 么可 以判 定语 音来源于同 种发 音。预先对训练数 据分帧进行 发音类别标记,以便得到生成语言向量的模型。应用传统的GMM/HMM 模 型对 语音数 据 进行 分帧 标记,然后 将 已知 的发 音类 别归为 3 维语 言向 量:普通 话发 音,重口 音通话 发音,以及不 发音,共 3 种情况,来替 换相 应的 HM

8、M 状 态,以此 完成 语言 向量分帧 标记。然后 用该 语 言向量 数据 集来 训练 一个 小 规模的 DNN 神经 网络。其中 DNN 是 判别式模型,以 此来 反映 异类 数据之 间的 差别。我 们 采用的 DNN 是 2 层隐 层,其 中前 一层有 1200 个结 点,激活 函数为 f(x)=x,即 只做线性映 射,后一层 20 个结点,激活 函数 为 sigmoid函 数。语音 特征 选择 的是 Fbank 特征 以及它 们的一 二 阶差 分,共 40 维,考 虑 到上 下文 关系,输入加入 了当 前帧 前后 各 5 帧近邻 帧,总共 11 帧440 维。输出 结点(对 应语 言 向

9、量 的维 度)的 数目为 3。实验中我们发 现,如果从 习得的语言向 量模 型 中提取 20 维的 语言向 量,即 第二 层隐 含层的输出 经过 softmax 前的结 果,然 后引 入到 声学模型的 训练 中,其效 果更优 于 语言 向量 模型 最终输 出的 3 维语 言向 量本 身。另外,语言向量在针对语音数据每个分帧时,可以 是各自 独立 的,也可以 在各 个分 帧属 于同一句 话情 况下 共用 一个。在 实验 中发现,后者带给系 统的 改进 要大 于前 者。因此,同 一句 话的平均帧作为公共语言向量共用为各分帧的语言向 量 模型。其 中,同 一句话 的 平均 帧通 过以 下公式获得:,

10、其中,F_average 表示 同一 句话 的平 均 帧特 征向 量,F_i表示同 一句 话的 各个 分帧 特征向 量。3 多任务学习 图 1 多任务学习模型图 多任务 学习(Multi-task learning)是机 器学习中一 个很 有前 景的 领域,其 目标 是利 用多 个学习任务中所包含的有用信息来帮助为每个任务学习得 到更 为准 确的 学习 器11。多任 务学 习的关键前 提因 素在 于所 有任 务(至少 其中 一部 分任务)是 相关 的,从而 可以在 它 们之 间分 享数 据的部 分 表征。具体 而言 如果任 务 之间 相关 却又 不相似,那么 它们 就可 以相 互 缩小彼 此的

11、 可能 函数 空间以提 高各 自的 目标 泛化 能力。DNNs 的每 个隐层 都是它 的输入的 非线 性组 合,因此 高层 的隐 层相较 于 底层 拥有 更加 抽象的 表征,这 使得 DNNs 特别 适用 于多 任务 学习10。如图 1 所示,我 们以 2 个任 务为 例,二者拥有共 同的 输入,并 且分 享若干 底层 的特 征。4 引入语言向量的 DNN 声学模型 声学模型与语 言模型是语 音识别系统两 个重 要 组成 部分,其性 能好坏 直 接决 定了 语音 识别系统的 性能 表现。本 文通 过 DNN 来构 建声 学模型,其中 以语 音帧 及其 前 后邻帧 的特 征向 量作 为输入,相关

12、帧 对 HMM 状 态的后验概率 作为输出。在本次 实验 中,使用 GMM/HMM 获得 预标记数 据,并以 此得 到语 言向量 模型 后,通过 多任务学习这种方法将语言向量作为知识迁移引 任务1 的输 出 任务2 的输 出 输入 2019 年中国电机工程学会年会论文集 入 DNN 的训 练。多任务学习方 法通过多任 务信息共享提 升整体的 学习 效果,这对 于 小样本 上的 学习 尤其 有效。多任 务学 习方 法可 以 充分利 用多 个小 样本 的信息,提升 多任 务整 体的 学习效 果。具体 来说,多任务 学习 将多 个相 关任 务放在 一起 同时 学习,加入的 任务 会改 变网 络权 值

13、更新 的动 力特 性,使得分类 器输 出的 结果 相互 关联限 制,改 善分 类器的泛化 性能。构成多任务学 习的基本前 提是对属于不 同发音(同 种语言)的语 音 进行分 类与 构造 声学 模型之间的差异。同时二者都要借助于GMM/HMM 对 数据 的再标 注 而产 生了 一定 的关联 性,而这 种关 联性 使得前 者 的学 习对 后者 学习的促进 提供 了基 础前 提。本文中语种分 类任务和语 音识别这两种 任务的输 入均 为语 音特 征,具 体而言 为 fbank 特征,这两种 任务 的低 维特 征空 间可以 共享。本次 实验中先用语言向量训练一个小的模型作为初始模型,这个 小模 型中

14、蕴含 的 知识对 后期 的语 音识 别模 型 是有 益的,可以 被后期 的 语音 识别 模型 所复用 i。如图 3,最 左边 的模 型为语 言向 量模 型,它将知 识转 移到 一个 稍大 规模的 DNN 中,并以此 DNN 作为 声学 模型 的前 若干层。图 2 语言向量预训练 DNN 声学模型前若干层 实验中发现当预训练的隐含层数目不同时,小 规模 DNN 的 知识转 移 到该 隐含 层里 的程度 也 是不 一样 的,最终 的性 能提 升随 之不 同。其中 以 选取前 3 层 隐层 为最 优,文中 将采 用此 种方式。5 实验与分析 5.1 实验配置 本文基 于开 源工 具 Kaldi,以及

15、其 所提 供的GPU 策 略来引导 整个声 学 模型的训练。语音 数据为国 网客 服中 心电 话咨 询业务 数据,其中 训练集 10000 条,交叉 验证集 2003 条,普通 话轻 口音测试 集 1003 条,普 通话 重口音 测试 集 1000 条。所有普 通话 轻口 音语 音,均来自 客服 中心 专业 客服人员 接听 业务 过程 中所 采集。重 口音 普通 话发音 的 语音,均来 自客 服中心 日 常呼 入咨 询电 话业务录音,并且主 要集 中来 自河南 和西 北地 区。所有音频的录音格式均为 wav 格式,采样率均为8kHz。实验采 用 13 维的 MFCC 特征以 及它 们的一、二

16、阶差 分训 练出 GMMs,随 后根据 GMMs获得的 标记 数据 训练 出一 个最基 本的 DNN 和语言向量 生成 模型,最后 结 合语言 向量 进一 步训 练改进了 的 DNN。其中 训练 DNN 时使 用的 语 音特征为 40 维的 Fbank 特征,考 虑到 上下 文相 关,使用 11 帧的 对称 窗口,并做 LDA 降维 至 200 维。基本 DNN 和 改进 了的 DNN 都 包含 4 层隐 含层,每层 1200 个 结点,输 出层对 应 GMM 的个 数,为 7552 个 结点。训 练中采 用 随机 梯度 下降 法,交叉熵 作为 训练 的评 判标 准。实 验中 DNN 的学习率

17、,均采 用 0.008。5.2 结果与分析 实验结果如表 1 所示。我们采用误字率(Word Error Rate,WER)来评 估模 型的 好坏。表 1 中,DNN 为通 常方 法 训练出 来的 声学模 型,作为 基准 模型(baseline),DNN-1 的 前三层隐含 层通 过语 言向 量模 型预训 练得 出。结 果同一 句 话的 各帧 共用 同一 个语 言 向量。从 表中,我Fbank 特征 输出Fbank 特征 Fbank特征 输 出为语言 向量输 出为语言 向量知识 转移预 训练前面若 干层 2019 年中国电机工程学会年会论文集 们发现 通过 多任 务学 习引 入语言 向量 到

18、DNN 中对模型 性能 有所 改进。Tab1 误 字率 Word Error Rate,WER 模型 普通话发音 重口音发音 DNN 11.39 37.73 DNN-1 11.20 36.93 6 结论 当语音识别系 统广泛在客 服中心中使用,个地方 口音 的识 别准 确率 明显制 约系 统的 应用。本文以 其中 一种 应用,即 单语言 多种 发音 的语 音识 别 系统 为例,将语 言向量 通 过多 任务 学习 这种方法引 入深 度神 经网 络声 学模型 的学 习中 去,提高了系 统的 识别 性能。后 期在此 基础 上可 扩展 语言向量 更多 的应 用范 畴,比如将 语言 向量 同时 引入的多

19、 个隐 层,并调 整整 个神经 网络 的权 值,将会对多 发音 的识 别模 型训 练产生 积极 效果。致谢 感谢国网客服中心 AI 实验室及清华大学语音语言实验室对本文的支持。参 考 文 献 1Deng,Li,and Dong Yu.Deep learning:methods and applications.Foundations and Trends in Signal Processing 7.34(2014):197-387.2Deng,Li.A tutorial survey of architectures,algorithms,and applications for deep

20、learning.APSIPA Transactions on Signal and Information Processing 3(2014):e 3Schmidhuber,Jrgen.Deep learning in neural networks:An overview.Neural Networks 61(2015):85-117.3Dahl,George E.,et al.Large vocabulary continuous speech recognition with context-dependent DBN-HMMs.Acoustics,Speech and Signal

21、 Processing(ICASSP),2011 IEEE International Conference on.IEEE,2011.4Mohamed,Abdel-rahman,George E.Dahl,and Geoffrey Hinton.Acoustic modeling using deep belief networks.Audio,Speech,and Language Processing,IEEE Transactions on 20.1(2012):14-22.5Hinton,Geoffrey,et al.Deep neural networks for acoustic

22、 modeling in speech recognition:The shared views of four research groups.Signal Processing Magazine,IEEE 29.6(2012):82-97.6Dahl,George E.,et al.Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition.Audio,Speech,and Language Processing,IEEE Transactions on 20.1(20

23、12):30-42.7Bengio,Yoshua.Learning deep architectures for AI.Foundations and trends in Machine Learning 2.1(2009):1-127.8Huang,Jui-Ting,et al.Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers.Acoustics,Speech and Signal Processing(ICASSP),2013 IEEE Int

24、ernational Conference on.IEEE,2013.9Dong Yu,Li Deng.Automatic Speech Recognition-A Deep Learning Approach.Springer,October 2014.10Caruana,Rich.Multitask learning.Machine learning 28.1(1997):41-75.11Seltzer,Michael L.,and Jasha Droppo.Multi-task learning in deep neural networks for improved phoneme recognition.Acoustics,Speech and Signal Processing(ICASSP),2013 IEEE International Conference on.IEEE,2013.收稿日 期:2019.06.17 作者简 介:杨维(1978.9.10-),男,湖南,研究生学历,高级工程师,主要 研究方向:电 力信 息化。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 其他论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报