1、智能语音识别方法在电力移动作业平台中的应用 蒋久松 熊富强 毛文奇 张超峰 国网湖南省电力公司检修公司 国网湖南省电力公司 摘 要: 针对电力系统检修作业过程中作业环境嘈杂, 巡检人员非特定人员的特点, 为了解决复杂作业环境下的语音识别问题, 从人工语音和背景噪声的固有特点出发, 提出了基于自适应去噪和深度学习的语音识别方法。关键词: 语音识别; 字典学习; 深度信念网络; 分段信噪比; 移动作业; 作者简介:蒋久松 (1980) , 高级工程师, 研究方向为换流站运维检修。收稿日期:2017-09-25Received: 2017-09-250 引言因产生原理、采集方法、存储模式和处理过程等
2、存在非线性和随机性, 导致语音信号是一种离散的、不平稳的随机信号。语音信号处理技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高级技术, 其感知和识别过程就是一个复杂的信号处理过程。通常情况下, 在噪声环境下对识别语音的难度比纯净语音条件下更大, 识别效果更差, 如何提高噪声条件下的语音识别性能将是值得研究的方向1。本文提出基于字典学习的去噪基础上, 在深度学习训练的特征参数提取方面, 减少因为语音信号的信噪比和失真度不同导致模型匹配度低, 使得神经网络结构更加灵活, 而不是依赖于有固定关系的隐层节点间的作用, 提高了学习效率。1 语音识别的基本原理语音识别可根据需要识别的语音词
3、汇量大小分为以下三类, 见表 14。表 1 基于词汇量的语言识别分类 下载原表 语音识别还可根据需要识别的语音长短和方式分为以下三类, 见表 2。语音识别也可根据需要识别的说话人身份分为以下两类, 见表 3。表 2 基于语音长短和方式的语言识别分类 下载原表 表 3 基于说话人身份的语言识别分类 下载原表 不同语音方式对语音识别系统的分类不同, 但语音识别系统的基本原理大致相同, 其工作原理如图 1 所示。图 1 语音识别系统的组成原理图 下载原图在语言识别系统中, 除语音的特征提取直接影响到识别效果外, 传统特征参数在噪声环境下容易出现畸形变化, 从而导致训练的模型精度不理想, 甚至会出现难
4、以匹配的现象。相似性度量模块是实现语音识别的模式识别, 其主要目的就是实现语音特征矢量到语音文字符号的参数化映射, 通过与参考模板进行比较, 得到最佳的识别结果5-6。2 基于字典学习的去噪预处理带噪语音是由纯净语音和背景噪声相叠加而成的, 根据二者的叠加方式, 噪声可分为加性和非加性两类, 见表 4。非加性噪声向加性噪声转换, 可通过将乘性噪声和卷积噪声同态变换转变为加性噪声。本文主要讨论加性噪声, 即周期性噪声、宽带噪声、脉冲噪声。表 4 噪声来源类型统计表 下载原表 由于语音信号具有良好的稀疏性, 因此可用稀疏理论来表示语音信号, 该理论认为纯净语音为有效信号, 背景噪声为噪声信号, 有
5、效信号具有内部的结构特征, 具有明显的特征性和周期性, 噪声则表现为随机性和不可预知性等。为了能够更加精准、快速和简洁地实现对信号特征的描述, 根据信号的自身特点进行稀疏分解, 构造具有先验知识的超完备字典, 由于超完备稀疏表示有着很好的稳定性, 因此本文将采用 Gabor 字典构成的超完备稀疏字典对带噪语音进行去噪处理。该方法把用来表示信号的基元素进行自适应组合, 达到精准描述的目的7。解决实际问题无法依赖精确的稀疏, 因而对于如式 (1) 所示的加性噪声, 稀疏表示可以用式 (2) 的逼近形式实现:式中, 表示高斯白噪声;D 表示超完备字典;0 表示允许的噪声误差。如何得到式 (1) 中
6、D 是关键问题, 它对语音稀疏表示的影响主要集中在两个方面, 一是信号的有效性, 二是求解算法的性能。字典的学习方法主要是集中在数学模型和样本学习这两个方面, 本文将采用样本学习方法来实现超完备字典。基于稀疏表示的语音去噪过程可以通过 K-SVD 算法获取自适应字典和 OMP 算法重构两步完成:在自适应字典学习的语音去噪和全局字典学习的语音去噪的基础上, 通过添加语音检索匹配环节将噪声语音的局部信息加以利用。本文采用文献8中提到的字典学习算法得到稀疏性优化的字典库, 从而提高字典与原始信号的相关度, 在快速去噪的同时能够更好地保留原始语音信号的信息, 从而提高下一步的语音识别水平。3 基于深度
7、信念网络的语音识别3.1 深度信念网络的概述经典的 DBN 网络结构是由若干层 RBM 和一层 BP 组成的一种深层神经网络, 其网络结构如图 2 所示。图 2 深度信念网络的组成部分 下载原图DBN 在训练模型的过程中主要分为两步:(1) 对 RBM 采用逐层无监督地训练模式, 确保映射语音样本的特征向量时, 在保证信息损失最小的前提下, 将特征信息映射到不同特征空间, 此步骤称之为预训练 (pre-training) 。(2) 在 DBN 的最后一层设置有监督训练的 BP 网络, 接收 RBM 的输出特征向量作为它的输入特征向量, 有监督性地训练实体关系分类器。而且每一层 RBM 网络只能
8、确保自身层内的权值对该层特征向量映射达到最优, 并不是对整个 DBN 的特征向量映射达到最优, 所以反向传播网络还将错误信息自顶向下传播至每一层 RBM, 微调整个 DBN 网络。RBM 网络训练模型的过程可以看作对一个深层 BP网络权值参数的初始化, 使 DBN 克服了 BP 网络因随机初始化权值参数而容易陷入局部最优和训练时间长的缺点。此步骤称之为微调优化。3.2 特征提取本文采用的特征参数为 MFCC 系数和非线性分解系数。其中, MFCC 系数采用文献9中的小波包分解动态特征参数提取方法 (DWPTMFCC) , 该方法主要是通过固有模态函数进行 MFCC 的系数提取, 分别对每个语音
9、信号的前 9 阶固有模态函数提取。但由于在电力巡检中巡检人员为非特定人, 从而导致语速和语音长短等会存在较大不同, 致使提取到的特征参数维数根据建模需求会有差异。非线性分解系数采用文献10中提出的聚合经验模态分解提取前 12 个 IMF 分量。本文中, 对于深度信念网络来说, 为了保证网络的学习速度, RBM 在训练时必须保持可见层节点数目的一致性。对前 9 阶的每阶固有模态函数提取的 MFCC 参数为 12 阶, 并将提取到的 12 个 IMF 分量分别与 MFCC 参数共同组成混合特征量, 这样每个语音信号的特征维数为 1012=120 维。在对历史数据统计分析的基础上, 为了简化计算并形
10、成网络能够接受的数据格式作为输入特征, 赋予各特征不同的影响力权值, 并将所有的输入变量归一化处理到0, 1区间的连续数值。由于归一化对象的量纲变化较大, 为了让不同维度的特征之间可以更清晰地比较, 本文根据对不同特征的统计分析分别采用对数或最大值的归一化方法进行建模。3.3 DBNs 网络参数设计为了提高网络的性能, 缩短网络的训练时间, 在对网络开始训练前, 必须对网络重要参数进行设置。本文根据相关的研究成果对网络参数进行优化设置。主要的设置参数如下。3.3.1 DBNs 网络输入层根据特征提取的参数维度, 结合输入层网络节点的定义, 深度学习网络的输入层节点个数为 120 个。3.3.2
11、 RBM 传递函数为了训练获得较优的初始参数, RBM 中隐含层与可视层之间的传递函数选用sigmoid 函数。通过该函数可以有效地将连续型实数转化为二值型变量。3.3.3 DBNs 网络结构(1) 确定隐含层数。由于 DBNs 是多层网络, 一般来讲, 当重构维数逐层增多时能够提高单层网络的逼近能力, 但网络的泛化能力会降低。当重构维数逐层下降时可以提高泛化能力, 但下降过大会造成特征信息丢失。本文通过在不同样本下的训练识别, 在网络误差和训练时间寻找相对较好的平衡点, 故采用 3 层隐含层的设计, 总的网络层数为 5 层。(2) 确定隐含层的节点数。隐含层节点数直接影响网络的泛化能力和训练
12、速度, 并且是导致“过拟合”的主要原因。隐含层节点数不但与输入/输出层的节点数目有关, 而且与问题的要求和复杂程度有关。根据语音识别特征量的维数, 以及相关网络的参数设置经验, 网络的各节点数量设置见表 5。(3) 确定 RBM 的学习率。学习率主要通过改变在循环学习过程中权值变化的多少来影响学习速度, 它的大小对网络的收敛速度和输出的结果精度影响很大。如果学习率太小, 则学习速度太慢;如果学习率太大, 则可能导致振荡或发散。本文为了保证系统的稳定性和网络性能, 考虑到语音噪声含量对训练样本离散度的影响, 提出基于分段信噪比的深度信念网络的学习率自适应调整, 选取的RBM 学习率范围为0, 0
13、.01。(4) 权值参数的初始化。对隐含层和输出层, 其偏置初始化为 0。对可见层和隐含层之间的连接权值, 本文采用标准正态分布 N (0, 2) 产生的随机数。表 5 语音识别 DBNs 网络节点数 下载原表 3.4 相似性度量为加快训练算法收敛和提高语音识别效率, 本文的 DBNs 网络输出层选择输出 4个识别结果。因为马氏距离可以被广泛用于衡量说话人语音样本间的相似度11,故本文将输出识别结果与模型库中结果的马氏距离进行比较, 把马氏距离最小的识别结果作为最优方案进行输出, 当 4 个输出结果的平均马氏距离大于一定阈值时, 说明语音识别结果可信度差, 需要重新启动识别流程一次, 并对学习
14、率进行适当微整, 以便提高最终的语音匹配率。4 在电力移动作业平台中的应用效果电力移动作业平台具备移动巡检功能, 现场发现故障或隐患时, 可以对设备进行实时拍照, 并通过内置麦克风就地加入语音注释, 后期文件归档处理时, 需要将语音注释进行自动识别成文本进行保存, 能够生产技术报告。在巡检过程中, 在不同的设备区域, 其背景噪声也会不同, 这对后期的语音识别带来一定挑战。现场平均噪声大小如表 6 所示。表 6 现场平均噪声大小统计表 下载原表 现场常用的语音注释词汇收集见表 7。针对不同巡检人员对不同语音注释的研究, 结果表明当语音过长时, 识别效果明显下降 (见表 8) 。在作业平台使用过程
15、中, 需要给出较为规范的注释语音录入格式。表 7 语音注释常用词汇表 下载原表 表 8 不同语音词汇量下的识别对比表 下载原表 针对不同噪声环境下的识别情况, 选择在不同巡检现场录入的相同长度的语音注释进行比较, 结果表明采用去噪后的效果比较明显, 语音识别正确率波动范围较小, 说明该智能语音识别方法适应性较强, 见表 9。5 结语本文针对电力系统巡检过程中, 现场噪声较大, 非特定人员进行巡检的特点, 提出了一种智能的语音识别方法, 该方法具有对噪声较强的抑制能力, 在现场应用中, 表示出较高的识别正确性和场地适应性, 下一步将在词汇识别方面进行研究, 进一步提高特殊词汇的语意识别能力。表
16、9 不同作业现场的语音注释识别对比 下载原表 参考文献1于俊婷, 刘伍颖, 易绵竹, 等.国内语音识别研究综述J.计算机光盘软件与应用, 2014, 8 (10) :76-78. 2黄威, 石佳影.基于深度神经网络的语音识别研究J.现代计算机, 2016, 3 (7) :20-25. 3S.E.Kahou, X.Bouthillier, P.Lamblin, et al.Emo Nets:Multimodal deep learning approaches for emotion recognition in videoJ.Journal on Multimodal User Interfa
17、ces, 2015, 10 (2) :1-13. 4陈蔚.经验模态分解及深度信念网络在语音识别中的应用研究D.杭州:浙江理工大学, 2015. 5Md.A.Ali, M.Hossain, M.N.Bhuiyan.Automatic Speech Reco gnition Technique for Bangla WordsJ.Internationa l Journal of Advanced Science and Technology, 2013, 50 (1) :51-60. 6Sainath T N, Kingsbury B, Sindhwani V, et al.Low-rank m
18、atrix factorization for deep neural network training with high-dimensional output targetsA.International Conference on Acoustics, Speech and Signal processingC.Canada:IEEE, 2013:6655-6659. 7胡占强, 耿龙.基于相似图像检索与字典学习的图像去噪算法J.现代计算机, 2016, 12 (3) :49-53. 8纪志春.基于字典学习的语音增强算法研究D.大连:大连海事大学, 2016. 9张君昌, 李艳艳.基于小波包分析的鲁棒性语音识别J.计算机工程与应用, 2011, 47 (10) :124-126, 243. 10张乐, 张雪英, 孙颖, 等.基于聚合经验模态分解的情感语音特征提取J.计算机工程, 2017, 43 (8) :306-309, 315. 11罗剑, 杨印根, 雷震春.加权成对约束度量学习在说话人识别中的应用J.2016, 52 (11) :158-163.