1、机载任务系统语音交互技术应用研究 刘立辉 杨毅 王旭阳 徐磊 中国电子科学研究院 摘 要: 针对大型机载任务系统人机工效提升问题, 文中采用一种适用于新系统研制和现有系统改造的语音交互技术应用方法, 以实现通过语音技术提升系统人机工效的目的。该方法基于 MVC 分层架构, 在各个层次上构建语音功能模块, 包括针对机载任务系统的语音词库、应用开发库和语音交互插件, 并定义 3 个层次模块之间的交互接口。该方法最大限度实现了语音功能的独立性。在部分典型机载任务对比试验中, 采用该方法构建的语音交互系统提升人机工效 15%以上。关键词: 机载任务系统; 语音交互; 人机交互; 人机工效; 作者简介:
2、刘立辉 (1981-) , 男, 硕士, 高级工程师。研究方向:大型电子系统软件设计与开发。作者简介:杨毅 (1985-) , 男, 博士, 工程师。研究方向:人机交互系统设计与开发。作者简介:王旭阳 (1988-) , 男, 博士, 工程师。研究方向:语音交互系统设计与开发。收稿日期:2017-09-21基金:国家部委项目 (14G00101) Applied Research on the Speech Interaction Technology in Airborne Mission SystemLIU Lihui YANG Yi WANG Xuyang XU Lei China Ac
3、ademy of Electronics and Information Technology; Abstract: A method of speech interaction technology application adapted to new system developing and existing system rebuilding was used to improve the ergonomics in large airborne mission system with speech technology.The method was based on MVC laye
4、red architecture, and was used to build speech function modules in every layer, including speech database, development library and speech interaction plugs related to airborne mission system, and to define the interactive interfaces between the modules in three layers.The method realized the maximum
5、 independent of speech function.In contrastive tests of partial typical airborne mission, the speech interaction system built by this method improved more than 15% in ergonomics.Keyword: airborne mission system; speech interaction; human computer interaction; ergonomics; Received: 2017-09-21随着人工智能技术
6、的迅猛发展, 国内外针对智能交互技术的研究日益广泛。从人机交互角度来看, 改善信息输入手段、减少人工操作时间, 是提高信息系统效率的重要手段1。在装备领域, “以人为本”、致力于操作员舒适性的新型人机交互技术应用是装备发展的必然趋势。视觉和听觉是人类获取外界信息的最主要来源, 语言是人类最重要、最有效、最常用和最方便的沟通方式2。自动语音识别 (Automatic Speech Recognition, ASR) 技术是目前最为成熟的人工智能技术, 已被广泛应用于车辆、船舶等系统中。开展机载环境下的任务系统语音交互技术研究, 对于优化系统人机工效, 进而提升整个系统的运行效率, 有着重要意义3
7、。本文提出一种适用于机载任务系统的语音交互技术应用方法, 并结合典型机载任务对比试验, 验证了语音交互技术对机载任务系统人机工效的改善效果。1 语音技术及机载任务系统应用现状1.1 语音技术现状人类对语音技术的研究始于上世纪五十年代, AT(2) 语音采集:即使在安静环境下, 语音系统一半以上的识别错误来自于语音采集。在机载任务系统中适配安装符合操作要求的采集设备是个难点2;(3) 系统兼容:如何根据系统要求, 选择合适的计算单元和处理策略是语音处理的重中之重, 影响着系统计算资源分配策略, 在一定程度上, 对系统主业务功能存在影响;(4) 操作兼容:在机载任务系统中集入语音交互功能, 将在一
8、定程度上改变操作员的现有操作习惯。要使操作员更加自然地接受新功能需要做大量的前期工作。综上所述, 降噪技术和鲁棒性技术是语音交互应用的核心技术要求, 对于提升复杂环境下的语音识别效果至关重要。语音引擎移植技术是机载任务系统语音交互功能集成的关键。3 机载语音交互系统设计3.1 设计原则语音交互是众多人机交互手段之一, 是对传统的基于 GUI (Graphic User Interface) 交互范式的指向型 (Pointing) 交互手段的一种补充, 而非替代。语音交互的最大特点是可实现一语直达的“穿透式”命令控制, 可显著压缩交互过程中的中间环节 (如菜单浏览、选取等) 。在设计语音交互系统
9、时, 应尽可能发挥其“穿透式”的交互效果, 避免增加中间操作过程, 使其在如下情况中突显出快捷性。(1) 看不见:当被操控对象处于操作员有效视野 (Useful Field of View, UFOV) 之外 (或处于隐藏状态) 时, 适用“穿透式”的语音控制命令。例如, 当通信控制界面未被打开时, 操作员可直接发布“电台开机”语音控制命令, 完成对通信电台工作状态的更改设置;(2) 顾不上:当操作员双手忙于操纵其他设备的同时, 面临突发紧急情况, 可通过发布语音命令, 实现对系统的多功能并行控制。在机载任务系统中加装语音交互模块, 建议遵循如下原则:(1) 加装语音功能, 不应破坏现有操作习
10、惯, 以叠加补充为主;(2) 语音控制命令应便于记忆, 且音调清晰, 使操作员可以很方便地记忆并可准确地口头表述;(3) 语音功能模块应相对独立, 将对系统主业务功能的影响降到最低。3.2 机载语音交互场景在机载任务系统中, 常见的操作包括对话框操作、命令窗口操作、地图操作、表格操作和文本对话操作等。然而, 并非所有机载操作都适合应用语音交互方式。经过分析, 适用于语音交互的应用场景归纳总结如下:(1) 常用控制命令。语音交互的基础是操作员和计算机通过一致对应的命令词表相互理解。操作员记忆力有限, 过多的命令词会增加操作员的记忆负荷, 而计算机只能理解已注册过的命令词表。采用语音输入时, 应尽
11、可能限定在常用命令范围内, 并且将语音命令词表固化, 避免频繁改动;(2) 枚举值输入。语音输入变量应为可枚举的有限离散变量。语音交互周期为从语音发出开始到计算机识别响应为止。这个周期限制了语音交互的时效性, 例如“地图放大”操作更适合滑块控制方式, 而非操作员连续的语音输入“放大!放大!”。但是, 对于地图一次性放大 N 倍, 采用语音控制就相对高效;(3) 精确表述短语。可精确表述的命令短语便于被计算机所理解, 例如“红外设备开机”, 简单明了且无二义性, 适合采用语音控制方式。而难以精确表述的命令就不宜采用语音控制, 例如“图片缩小”操作, 需要操作员反复观察判断并持续反馈, 不适合语音
12、控制。在机载任务系统中, 可精确表述的语音命令包括对象召唤 (如对菜单、对话框等的调取) 、档位/开关设置 (如工作状态设置、图层显隐控制) 等。当计算机收到语音命令时, 经过匹配解析, 可映射为对某个对象的控制操作, 例如计算机收到“打开通信参数”语音命令时, 弹出名称为“通信参数”的对话框。又如语音命令“雷达低空开机”, 可使“雷达参数”对话框中的“雷达低空开机”选项处于被选中状态, 体现了语音控制的“穿透式”快捷性特点;(4) 多槽命令输入。语音命令还可支持同时对多个参数的设置 (多槽命令词) , 操作员可以一次性对多个参数进行设置, 例如语音命令“26001 26002 合批”即可完成
13、两个批号目标的“合批”操作。而采用键盘鼠标操作, 需要在对话框中分别输入批号 1“26001”和批号 2“26002”后, 再点击“合批”按钮, 相对耗时更多, 如图 1 所示。图 1 多槽命令词输入示意图 下载原图3.3 机载语音交互架构在机载任务系统中集成语音模块, 需要兼顾考虑现有系统的人机交互架构, 最大限度避免影响现有业务功能。实现时应遵从 MVC 架构设计, 将语音模块进行分层设计, 自下而上分为语音引擎、语音组件、语音插件 3 个部分。语音引擎是实现语音识别和语音合成的核心模块。语音组件实现语音交互控制的逻辑功能, 将语音引擎接口封装, 向应用层提供二次开发接口。语音插件实现机载
14、任务系统的业务功能, 通过语音接口调用语音基础功能。语音模块组成如图 2 所示。语音引擎可以运行于可编程硬件板卡、也可以软件形态运行于常规操作系统。相对应的, 语音组件可实现两个版本:软件引擎版和板卡引擎版。在系统集成时, 可根据客户端数量需求, 采用单机版语音交互系统或 C/S 架构的语音交互系统。图 2 语音模块组成图 下载原图单机版语音交互系统中, 语音组件和语音引擎均运行于本地计算机。该系统的优点是部署简单, 不受网络带宽限制;缺点是整个系统硬件资源利用率低。其中, 软件引擎版不需增加额外硬件, 但需抢占本地计算机的计算资源;板卡引擎版需要在本地计算机上接入语音引擎板卡, 但基本不占用
15、本地计算资源。C/S 版语音交互系统是将语音组件的语音输入、输出模块运行于本地计算机, 将语音引擎及其外围服务软件配置于服务器端。该系统优点是可实现一台服务器同时服务于多个客户端, 系统整体资源利用率高;缺点是受网络带宽限制, 当网络传输压力增大时, 会对语音交互品质造成影响。3.4 机载语音模块集成机载语音模块设计及集成需要符合现有系统的组件规范和插件规范, 详见图3。图 3 语音模块集成示意图 下载原图机载任务系统人机交互子系统用于实现整个系统的信息综合显示和人机交互功能, 包含图形、文字、图表显示, 命令输入和应答输出等。按照图形、文件等基础服务功能的集成方式, 将语音功能作为独立功能,
16、 封装为框架中各个层次上的功能模块。语音引擎模块实现对操作系统、基础硬件的调用, 对上封装为底层调动接口, 供上层服务组件调用。语音组件, 与图形组件、文件组件等其他组件一样, 根据具体系统需求, 实现对底层引擎的适应性封装, 供上层业务模块 (业务插件) 调用。这些组件在对底层引擎调用的同时, 实现对基础数据的管理调度, 例如语音组件通过综合调用语音引擎和语音词库实现语音命令识别。3.5 机载语音交互引擎语音交互引擎包括语音识别引擎和语音合成引擎。语音合成引擎主要用于计算机语音播报等应用。语音交互的重点在于计算机对人类语言的识别过程, 其原理7如图 4。图 4 语音识别引擎原理图 下载原图语
17、音识别工作包含两个大的步骤:模型训练和识别。模型训练是利用训练数据训练声学模型和语言模型。目前比较流行的声学模型构建是用隐马尔科夫模型 (Hidden Markov Model, HMM) 8来对时间序列建模, 在隐马尔科夫模型的各个状态上, 使用深度神经网络进行分类。神经网络有多隐层的全连接网络, 包括卷积神经网络 (Convolutional Neural Networks, CNNs) 9-11、递归神经网络 (Recurrent Neural Networks, RNNs) 12-13和时延神经网络 (Time-delay Neural Networks, TDNNs) 14等。语言模
18、型虽然也可以采用复杂的统计模型, 但由于其在解码过程中需要被频繁调用, 因此一般多使用 N 元文法15。除了训练两个模型外, 系统还需要根据识别词典或文法来构建解码网络。识别则是根据上一步提供的各种资源对输入的语音信号进行解码, 将其转为文本。对于语音识别系统, 除算法外, 居于核心地位的是语音数据。真实准确的语音数据的获取和处理, 是机载语音交互系统构建的关键问题。一般情况下, 一套成熟的语音识别系统至少需要 300500 h 的训练数据。尽管在机载任务系统中, 命令词相对明确, 但考虑到噪声等因素, 训练数据至少也得超过几十小时。在识别方面看, 机载语音环境噪音较大, 降噪处理将作为机载语
19、音系统长期持续研究的内容。降噪算法可以分为单通道降噪算法和多通道降噪算法。单通道降噪算法主要通过语音和噪声在时域和频域上分布的不同特点, 以区分二者的信号, 包括谱减法16、维纳滤波法17、基于统计模型的算法18-19和基于子空间的算法20-22等, 近些年随着深度学习技术在信号处理领域的引入, 也有研究通过使用 DNN 模型来对语音和噪音进行分类, 取得了理想的效果23。多通道降噪算法除了能够利用时、频域信息外, 还可以利用空间上的区分度进行噪声抑制, 主要方法有波束形成24、维纳滤波25和盲源分离26-27等算法。另外, 针对机载舱室环境, 远场语音信号去噪28也将是未来研究的方向之一。另
20、外, 基于机载任务系统对命令苛刻的实时性要求, 与识别速度相关的解码模块是语音识别系统高效运行的关键, 需要不断进行优化改进以适应未来不断变化的语音语义环境。解码模块主要包括解码网络的构建和解码算法两部分内容。现代语音识别系统由于需要支持大规模语言模型和词典, 解码网络的构建方法分为基于前缀树 (Prefix Tree) 29和加权有限状态转换机 (Weighted Finite State Transducer, WFST) 30-31两种方式。基于前缀树的解码网络, 创建一个根节点, 各个词的音素状态序列与根节点连接, 并将前缀相同的状态串合并, 由此构成了音素状态级的前缀树解码网络。基于
21、 WFST 的解码网络主要通过复合 (Composition) 、确定化 (Determination) 和最小化 (Minimization) 等一系列 WFST 的标准化操作将声学模型、语言模型和识别词典等所有的识别资源生成为一个网络, 其网络紧致程度比前缀树形式更高, 因此一般解码速度也更快。4 机载语音交互系统评估(1) 交互任务成功率。对于机载任务系统来说, 交互任务成功与否是操作员最为关注的问题。因此, 将交互任务成功率32作为语音系统的主要评估指标, 其本质是语音识别率。在此, 采用短语识别率作为机载语音系统评估指标, 即识别正确的命令短语数目与测试集短语总数目的比值。搭建语音系
22、统试验评估平台, 在机载噪音回放环境下开展测试。在未采取硬件降噪措施时, 语音识别率可以达到 80%以上。为提高语音识别的准确性, 采用麦克阵列技术进行降噪处理, 通过信噪比的改善进一步提升语音数据质量。从实验结果看, 经过硬件降噪处理后的语音数据信噪比明显提升, 语音识别率超过 90%。如果结合鲁棒性纠错技术, 可以进一步提高语音识别效果;(2) 交互效率。设计典型机载任务对比试验, 测试加装语音交互模块的系统操作时间, 与未改造系统进行比较, 判断语音交互在机载人机工效提升上的效果。通过典型任务试验, 验证各类语音交互模块的工作效率以及人机工效提升作用。从试验结果看, 语音交互在常用控制命
23、令、枚举值输入、精确表述短语等方面有突出优势, 能够大幅缩短操作时间, 交互效率提升 15%以上。但是, 在多槽命令输入方面有待进一步优化设计, 在其具体命令词设计上需要做更加细致的工作。5 结束语语音是交互系统中最自然的交互媒介, 语音交互技术作为新型交互手段应用于机载任务系统具备较高可行性。随着计算机和人工智能技术的发展, 其实用性将进一步提高。语音交互与其他交互技术有机结合是机载任务系统人机交互技术发展的重要方向, 其应用前景非常广泛。参考文献1杨加平.面向指控系统的嵌入式语音交互技术设计与实现J.机械与电子, 2015 (4) :72-74. 2何湘智.语音识别的研究与发展J.计算机与
24、现代化, 2002 (3) :3-6. 3夏乐乐.机载语音信号检测与处理技术D.南京:南京航空航天大学, 2014. 4张飞宇.在线教学平台中视频语音识别系统设计J.电子科技, 2012, 25 (10) :43-48. 5Hinton G E, Osindero S, Teh Y W.A fast learning algorithm for deep belief netsJ.Neural Computation, 2006, 18 (7) :1527-1535. 6Amodei D, Ananthanarayanan S, Anubhai R, et al.Deep speech2:En
25、d-to-end speech recognition in English and MandarinC.New York:International Conference on Machine Learning, 2016. 7景春进, 陈东东, 周琳琦.基于中文语音识别技术的舰艇指挥训练系统的研究J.计算机测量与控制, 2014, 22 (8) :2571-2573. 8蔡明琦, 凌震华, 戴礼荣.基于隐马尔科夫模型的中文发音动作参数预测方法J.数据采集与处理, 2014, 29 (3) :204-210. 9Abdel-Hamid O, Mohamed A R, Jiang H, et
26、al.Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognitionC.Kyoto:IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE, 2012. 10Abdel-Hamid O, Mohamed A R, Jiang H, et al.Convolutional neural networks for speech recognitionJ.IEEE/ACM Tr
27、ansactions on Audio Speech&Language Processing, 2014, 22 (10) :1533-1545. 11Palaz D, Magimai-Doss M, Collobert R.Convolutional Neural Networks-based continuous speech recognition using raw speech signalC.Brisbane:IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE, 2015. 1
28、2Graves A, Mohamed A R, Hinton G.Speech recognition with deep recurrent neural networksJ.IEEE Transacitons on Imagenation, 2013, 38 (3) :6645-6649. 13Li X, Wu X.Constructing long short-term memory based deep recurrent neural networks for large vocabulary speech recognitionC.Brisbane:IEEE Internation
29、al Conference on Acoustics, Speech and Signal Processing, IEEE, 2015. 14Peddinti V, Povey D, Khudanpur S.A time delay neural network architecture for efficient modeling of long temporal contextsC.Dresden:Interspeech, 2015. 15单煜翔, 陈谐, 史永哲, 等.基于扩展 N 元文法模型的快速语言模型预测算法J.自动化学报, 2012, 38 (10) :1618-1626. 1
30、6王水平, 唐振民, 陈北京, 等.复杂环境下语音增强的复平面谱减法J.南京理工大学学报, 2013, 37 (6) :857-862. 17余世经, 李冬梅, 刘润生.一种基于 CASA 的单通道语音增强方法J.电声技术, 2014, 38 (2) :50-54. 18Kwon H, Son J, Bae K.Speech enhancement using modified minimum mean square error short-time spectral amplitude estimatorJ.ITC-CSCC, 2003, 87 (6) :228-231. 19张宁, 顾明亮
31、, 朱俊梅, 等.语音活动检测对方言辨识系统的影响研究J.计算机技术与发展, 2012, 22 (11) :73-76. 20Chang H Y, Rahardja S, Koh S N.Audible noise reduction in eigendomain for speech enhancementJ.IEEE Transactions on Audio Speech&Language Processing, 2007, 15 (6) :1753-1765. 21王烨, 屈丹, 李弼程, 等.基于子空间映射和得分规整的 GSV-SVM 方言识别J.计算机工程与设计, 2013, 34
32、 (1) :278-282. 22王耀军, 林永刚.压缩感知下的自适应声源定位估计J.计算机工程与应用, 2016, 52 (14) :62-66. 23Wang Y.Supervised speech separation using deep neural networksM.Ohio:The Ohio State University, 2015. 24韩颖.复杂环境下阵列语音识别方法的研究D.锦州:辽宁工业大学, 2014. 25王立东, 肖熙.传声器阵列空间维纳滤波语音增强方法的研究J.电声技术, 2013, 37 (8) :53-56. 26Brandstein M S, Ward
33、 D B.Microphone arrays:signal processing techniques and applicationsM.Berlin:Springer Science&Business Media, 2013. 27栾先冬, 徐岩.基于萤火虫算法的变步长语音信号盲源分离J.电子科技, 2016, 29 (7) :4-7. 28唐军华, 王永刚, 刘世辉.一种远场语音信号去噪算法研究与实现J.电子科技, 2014, 27 (8) :144-146. 29邵俊尧.海量孤立词识别算法研究D.北京:北京邮电大学, 2013. 30陈智鹏, 贺志阳, 吕萍等.语音识别中 WFST 网络构建与解码的效率优化C.天津:全国人机语音通讯学术会议, 2013. 31郭宇弘, 黎塔, 肖业鸣, 等.基于加权有限状态机的动态匹配词图生成算法J.电子与信息学报, 2014, 36 (1) :140-146.