1、语音端点检测在实时语音截取中的应用 洪奕鑫 张浩川 余荣 吴哲顺 广东工业大学自动化学院 摘 要: 语音端点检测在语音识别系统中占有重要地位。针对在噪声多变的环境中实时截取完整语音信号存在困难, 文章提出一种实时语音端点检测方法。该方法首先提取每帧信号的短时平均过零率与 Mel 频率倒谱系数;然后利用前 N 帧背景噪声的 Mel 频率倒谱系数对当前帧进行归一化, 并以该特征矢量的 L2 范数作为另一特征;最后根据多特征分析对有效语音信号进行截取。实验结果表明, 该方法在多变的噪声环境中, 截取完整语音信号具有较高准确率。关键词: 语音端点检测; Mel 频率倒谱系数; 短时平均过零率; 多特征
2、; 作者简介:洪奕鑫 (1992) , 男, 广东潮州人, 硕士研究生;研究方向:嵌入式人工智能。基金:国家自然科学基金;项目编号:61422201Application of speech endpoint detection in real-time voice interceptionHong Yixin Zhang Haochuan Yu Rong Wu Zheshun Automation School of Guangdong University of Technology; Abstract: The speech endpoint detection plays an imp
3、ortant role in speech recognition system. It is difficult to intercept the complete speech signal in real-time environment in noisy environment. This paper presents a real-time speech endpoint detection method. Firstly extracts the short-term average zero-crossing rate and Mel frequency cepstrum coe
4、fficient (MFCC) of each frame signal. Then, MFCC of the headmost N-frame background noise normalizes the current frame, a feature vector whose L2 norm as another feature. Finally, the effective speech signal was intercepted according to the multi-feature analysis. The experimental results show that
5、the method has higher accuracy in intercepting the complete speech signal in the variable noise environment.Keyword: speech endpoint detection; Mel frequency cepstrum coefficient; short-term average zero-crossing rate; multi-feature; 随着人工智能的发展和语音处理技术的日渐成熟, 自然语音交互技术也得到了快速发展。目前, 云端模式逐渐兴起, 终端负责简单的语音信号处
6、理运算, 将运算量较大的部分托付给云端, 这样可以降低终端的运行压力, 也为语音交互提供了更多选择。相应的, 各大语音云服务厂商已经推出了各种语音接入方案, 终端只需将实时的语音信号数据发送至语音云服务厂商的语音处理引擎中, 即可对语音数据作进一步处理。在这种情况下, 终端如何在实时接收到的麦克风采样数据中保证获得的语音数据的完整性, 关乎整个实时语音交互系统的稳定性。语音端点检测技术是在一段带噪的音频信号中检测出语音的有效起始与终止位置, 在现有技术方案中, 语音端点检测方法大致可分为基于模式识别1-2与基于特征判决3-4两大类。由于模式识别的方法相比于特征判决在信噪比较低的环境下通常能够取
7、得较好的效果, 但其前提是训练样本足以表征端点特征的统计特性, 且存在训练算法繁琐、计算量大等缺点, 因此很难在实时系统中使用;而基于特征的判决方法由于计算简单、响应速度快被广泛研究和应用。传统特征判决算法很多, 如时域中的双门限算法5、频域中的倒谱距离6的检测算法等;目前应用较广的有基于短时过零率、谱熵与倒谱距离的检测方法。但不同特征本身在表征语音信号特性存在一定的局限, 短时过零率在高信噪比中能有效区分清音帧, 而在低信噪比较高的场合几乎失效;倒谱距离类似于短时对数能量特性, 对声音敏感, 对于实时环境中存在的诸如碰撞、敲打声极易出现误判;而谱熵由于难以区分弱摩擦音, 容易错失起始音节从而
8、导致语音数据的不完整。因此在噪声多变的环境中, 使用单一特征判决的算法无法取得理想的效果。本文提出的算法融合了短时平均过零率与 Mel 频率倒谱系数的 L2 范数各自的优势, 同时利用短时过零率的局部统计特性来跟踪多变的环境噪声来自适应调整阈值, 因此在实时检测过程中, 极大地提高了语音有效信号截取的准确性。1 实时语音信号截取算法完整的实时语音截取算法包括音频信号的预处理、特征提取、端点检测与后处理 4 个步骤, 步骤之间虽然在功能上划分相对明确, 却缺一不可。如何处理好这 4 个步骤, 关系到整个语音信号截取的效果。1.1 预处理在实时语音信号分析过程中, 为提取更好的语音特征, 通常在信
9、号预处理阶段所采用的方法是对语音信号进行预加重、分帧、加窗等操作。由于语音信号具有短时平稳与短时相关的特性, 分帧过程中通常设置每帧信号 xn的帧长在1040 ms 之间, 帧移一般取值为帧长的一半;之后通过一阶滤波器来提高语音高频部分的权重以消除低频信号的干扰;最后使用合适的窗函数来缓解短时频域分析所产生的频谱能量泄露问题7, 常见的窗函数有矩形窗、汉明窗等。1.2 特征提取1.2.1 短时过零率短时过零率作为语音时域分析的一种特征参数。该特征可以在一定程度上反映其频谱性质, 因此可以通过短时平均过零率获得谱特性的粗略估计。在离散信号下, 短时平均过零率实际就是信号采样点符号变化的次数。对于
10、离散信号, xn短时平均过零率定义为:式中, N 是信号的有效长度, 其中符号函数定义为:1.2.2 Mel 频率倒谱系数在内耳频率分析的人类声音感知模型的触发下, 由 Davis 等在 1989 年首次提出Mel 频率倒谱系数 (MelFrequency Cepstrum Coefficient, MFCC) 。Mel 频率倒谱系数的基本思想是, 基于滤波器组的频率分析, 滤波器组的带宽间隔约为临界子带的间隔8。MFCC 特征提取步骤为:(1) 将音频信号分帧加窗;(2) 利用傅里叶变换计算频谱;(3) 将频谱按照 Bark 的划分方式划分为 N 个单元, 对这 N 个单元使用滤波器组分别计
11、算每个滤波器对应的 Bark 单元中的能量;(4) 将步骤 3 中获取的每个能量转换为对应的对数能量;(5) 对步骤 4 中的结果作离散余弦变换;(6) 保留变换后的 1220 个结果, 该结果即为求解的 MFCC 特征向量。从以上的提取过程中可以明显地看出, MFCC 特征本质上是在一定的频谱范围计算该频段所持有的能量, 而这个频段是基于人耳听觉, 因此它拥有与短时能量相似的特性, 但在语音部分表现出一种放大效应。由于 MFCC 特征在不同维度上数值差异大, 为了平均每一维度的贡献与减弱声学信号扭曲的影响, 本文对 MFCC 特征作均值归一化处理, 其均值归一化后的特征矢量如下:其中, M
12、为当前帧 MFCC 特征, 与 S 分别为前 N 帧背景噪声 MFCC特征的均值与标准差。之后将归一化所得的特征矢量的 L2 范数作为分析特征, 其定义为:式中 n 代表 MFCC 特征的阶数。1.3 门限估计由于声波引入的频谱衰减, 语音能量集中于 3 KHz 以下, 而清音的大部分能量位于高频, 因此清音帧对应高过零率, 而浊音帧对应低过零率9。在信噪比较高的场合中, 短时平均过零率可以很好地甄别出语音的清音帧, 而当信噪比较低时, 浊音帧则更容易被检测到10。因此, 在实时检测过程中, 为及时跟踪这种变换趋势, 本文利用一个长度为 N 的缓存器来实时更新最近一段时间的输入信号的过零率,
13、如下:利用标准差可衡量数据波动范围的特性, 短时过零率的阈值通过以下规则来自适应更新:其中 为缓存中数据的均值, 为更新步伐, Z std为缓存中数据的标准差。在实时噪声环境中, MFCC 特征 L2 范数在静音段相对平稳, 波动程度小, 其特性与短时能量相似, 不仅对声音敏感, 而且具有较好的抗噪能力, 因此定义其阈值更新规则:其中 , 是调节因子, 可通过实验调节 为前 N 帧背景噪声MFCC 特征 L2 范数的均值。1.4 语音帧提取步骤在实时检测过程中, 假设前 N 帧信号为背景噪声, 并以此估计 MFCC 的 L2 范数门限, 记为 Tm;同理估算短时平均过零率门限, 记为 Tz。为
14、说明方便, 记当前帧 MFCC 的 L2 范数为 Mc, 当前帧的短时平均过零率为 Zc, 算法执行过程如下。(1) 实时采集音频数据并预处理;(2) 提取 Mc与 Zc;(3) 判断是否连续 N 帧 Mc过门限, 否则更新短时平均过零率的历史缓存, 同时更新 Tm和 Tz, 重复步骤 1 和 2, 是则进入步骤 4;(4) 同时缓存音频帧和 Zc, 直到 Mc回落到门限以下;(5) 判断步骤 4 缓存的短时平均过零率是否存在连续 M 帧越过 Tz 的帧, 判决方式为:为缓存中数据的均值;(6) 若步骤 5 条件成立, 则缓存的音频段为有效语音, 否则丢弃;(7) 重复以上步骤。以上算法关键步
15、骤为 4 与 5, 步骤 4 成立则确认声音出现, 而步骤 5 用于进一步确定该声音是否为语音。同时步骤 5 中采用绝对值的比较方法, 其目的在于解决短时平均过零率在不同信噪比条件下所表现出的不同波形形态问题, 该问题在实验中将详细阐述。2 实验2.1 实验环境及数据来源本实验在普通的办公环境下进行, 为模拟实时过程, 通过单通道、采样率 16 k Hz 采集 50 组包含撞击、拍打等办公噪声的语音信号, 每组信号时长 10 min。实验中以 30 ms 对语音信号进行分帧, 帧移 15 ms;在计算 Mel 频率倒谱系数时使用汉明窗与 26 个三角滤波器, 采用 12 阶 MFCC。2.2
16、实验分析一段在办公环境下实时采集的包含语音“学习手语动作”与敲打声的原始音频信号如图 1 所示, 红色标记线为有效语音片段, 而蓝色标记线为敲打噪声信号。图中可以明显看出, 在信噪比较高的情况下, 短时过平均过零率对摩擦音节帧敏感, 而对于弱摩擦如“语”“动”不敏感, 但对于敲打声却能够有效过滤。相比于短时对数能量, MFCC 的 L2 范数在同等条件下, 后者在有声段具有较高的增益效果, 而在静音段波动较为平稳。如图 2 所示, 对该信号加入 SNR=5 d B 的高斯白噪声, 比较了图 1 中带噪语音信号的短时对数能量特征曲线、短时过零特征曲线、MFCC 的 L2 范数特征曲线。可以看出,
17、 在信噪比较低的情况下, 从特征曲线的波动程度可以看出, 对于短时平均过零率, 反而能够更有效地检测出浊音帧, 但过滤噪声帧的能力却被削弱了, 这种现象是由于高斯白噪声存在更多的高频成分, 而由声带发出的语音在浊音段具有更低的频率;短时对数能量与 MFCC 的 L2 范数依旧保持原有的特性。图 1 在办公环境下实时采集的包含语音“学习手语动作”与敲打声的原始音频信号 下载原图图 2 短时对数能量特征曲线、短时过零特征曲线、MFCC 的 L2 范数特征曲线 下载原图结合图 1 与图 2 的分析, 只要是有声段, MFCC 的 L2 范数都能够很好地检测出来, 但是否是有效语音, 可以结合短时平均
18、过零率作出进一步的判断。因此, 结合 MFCC 的 L2 范数对声音的敏感度与短时过零率对语音帧的甄别能力, 这种策略可有效地降低误判率, 从而提升系统性能。为比较算法之间的性能, 在不同样本和信噪比条件下, 对传统双门限算法、常规倒谱距离检测算法与本文提出的检测算法做大量仿真实验, 算法准确率以截取到的完整语音信号文件数为评判标准, 即:正确截取率=完整语音信号文件数/人工标定有效语音段总数。如表 1 所示, 传统双门限算法在信噪比较低的情况下已经无法正常工作, 虽然倒谱距离相比于双门限算法在性能方面有一定的提升, 但依旧无法满足实际应用的需求。而本文提出的算法, 相比于前两种算法在准确率上
19、有了较大的改善。表 1 不同噪声环境不同信噪比下语音信号截取准确率比较 (%) 下载原表 3 结语在现实环境中, 噪声变化多样, 采用单一特征很难对实时变化的信号做出准确的判断, 而本文通过观察实时信号中各个特征之间的变化规律, 并结合不同特征的优势对传统算法进行改进。实验结果表明, 该方法能够有效避免环境中存在的如碰撞、敲打等噪声的影响, 并且在低信噪比的条件下准确率有较大的提升, 在信噪比较高的诸如办公室、客厅、卧室等环境下进行实时的语音截取均能达到良好的效果。实验过程中观察到另一个有趣的现象是:当参考噪声缓存不断更新时, MFCC 的L2 范数在语音结束后将在一段时间内持续在较低的水平,
20、 之后才回升到噪声的相对平稳状态区间。在后端点的后处理中, 利用这个特征可以用于改善后端点判决的常定时方案。参考文献1JUANG C F, CHENG C N, CHEN T M.Speech detection in noisy environments by wavelet energy-based recurrent neural fuzzy networkJ.Expert Systems with Applications, 2009 (1) :321-332. 2WU J, ZHANG X L.Efficient multiple kernel support vector mach
21、ine based voice activity detectionJ.IEEE Signal Processing Letters, 2011 (8) :466-469. 3WANG L, LI C R.An improved speech endpoint detection method based on adaptive band-paritition spectral entropyJ.Computer Simulation, 2010 (27) :373-375. 4LU Y, ZHOU N, XIAO K, et al.Improved speech endpoint detec
22、tion algorithm in strong noise environmentJ.Journal of Computer Applications, 2014 (5) :40. 5LI X, LI G, LI X.Improved voice activity detection based on iterative spectral subtraction and double thresholds for CVRC.Australia:Workshop on Power Electronics and Intelligent Transportation System, 2008:1
23、53-156. 6WANG H Z, XU Y C, LI M J.Voice activity detection algorithm based on Mel frequency cepstrum coefficient (MFCC) similarityJ.Journal of Jilin University (Engineering and Technology Edition) , 2012 (5) :1331-1335. 7王智国.嵌入式人机语音交互系统关键技术研究D.合肥:中国科学技术大学, 2014. 8陈振锋, 吴蔚澜, 刘加, 等.基于 Mel 倒谱特征顺序统计滤波的语音端点检测算法J.中国科学院大学学报, 2014 (4) :524-529. 9周明忠, 吉立新.基于平均幅度和加权过零率的 VAD 算法及其 FPGA 实现J.信息工程大学学报, 2010 (6) :713-718. 10薛胜尧.基于改进型双门限语音端点检测算法的研究J.电子设计工程, 2015 (4) :78-81.