1、基于改进的深度神经网络的说话人辨认研究 赵艳 吕亮 赵力 南京工程学院电力工程学院 东南大学信息科学与工程学院 摘 要: 说话人辨认技术在许多领域有着广泛的应用前景。首先研究了两种基本的深度神经网络模型 (深度信念网络和降噪自编码) 在说话人辨认上的应用, 深度神经网络通过逐层无监督的预训练和有监督的反向微调避免了反向传播容易陷入局部最小值的缺陷, 通过实验证明了当神经元个数达到一定数量之后深度网络模型是优于普通 BP 网络的, 并且其性能随着网络规模的扩大而提升。考虑到大规模的深度网络训练时间较长的缺点, 提出使用整流线性单元 (Re LU) 代替传统的 sigmoid 类函数对说话人识别的
2、深度模型进行改进, 实验结果表明改进后的深度模型平均训练时间减少了 35%, 平均误识率降低了 8.3%。关键词: 说话人辨认; 堆叠降噪自编码; 深度信念网络; 整流线性单元; 作者简介:赵艳 (1978-) , 女, 陕西宝鸡人, 2011 年东南大学信息科学与工程学院博士毕业, 获工学博士学位, 现为南京工程学院讲师, 研究方向为语音信号处理, 。收稿日期:2016-11-01基金:国家自然科学基金项目 (61301219) Research on Speaker Identification Based on Improved Deep Neural NetworkZHAO Yan L
3、 Liang ZHAO Li School of Electric Power Engineering, Nanjing Institute of Technology; School of Information Science and Engineering, Southeast university; Abstract: The technology of speaker identification will be used in many areas in the future. Firstly, a research is made on the use of two basic
4、Deep Neural Network models which refer to Stacked Denoising-Autoencoders and Deep Belief Network on speaker identification. By pre-training layer-wisely without labels and back fine-tuning with labels, Deep Neural Network has overcome the shortcoming that is easy to fall into local minimum caused by
5、 back propagation. The experiments proves that Deep Network Model performs better than normal BP Network when the amount of neurons is bigger than certain number and its performance grows with the scale of Network enlarges. Considering the training time of large Deep Model is too long, this text pro
6、poses using Rectifier Linear Unit to replace traditional sigmoid function to improve deep model on speaker identification. The results of experiment show that the training time and error rate of improved deep model has decreased by 35% and 8.3% respectively.Keyword: speakeridentification; stacked de
7、noising-autoencoders; deep belief network; rectifier neural network; Received: 2016-11-01语音是人的自然属性之一, 由于每个人的语音中蕴含不同特征, 如果将这些特征提取出来作为标识, 就可以在不同场合辨别说话人的身份。说话人识别又可以分为两个范畴, 即说话人辨认和说话人确认。另外按照说话内容又可以分为与文本有关的说话人识别和与文本无关的说话人识别1。随着数字信号处理理论与人工智能的不断发展, 说话人识别技术在电子商务、军事、银行等各个领域有了迅速发展, 是当今语音信号处理与识别领域的重要课题2。本文所做的工
8、作是关于文本无关的说话人辨认的研究。由于每个说话人的个人特征具有长时变动性, 并且每个说话人的发音与环境、说话时的情绪和健康程度有密切关系, 同时实际过程中还可能引入背景噪声等干扰因素, 这些都会影响与文本无关说话人识别系统的性能。对此, Tagashira S3等人提出了说话人部分空间影射的方法, 提取只含有个人信息的特征进行说话人识别, 但该方法对于个人信息的长时变动没有达到满意的效果。Liu C S4等提出了基于最近冒名者的模型的方法, 但因为必须计算所有的冒名者的似然函数, 使得计算量的变大。Reynolds5提出了基于说话人背景模型的平均似然函数来计算得分;Matsui 和 Furu
9、i6提出了基于后验概率的模型。Markov和 Nakagawa7将整个语句分成若干帧, 计算每帧得分, 获得总得分, 但它没有考虑目标模型和非目标模型的帧似然概率的特性。近年来在说话人识别方法方面, 基于高斯混合背景模型 GMM-UBM (Gaussian Mixed Model-Universal Background Model) 方法已成为主流的识别方法8。基于 GMM 超向量的支持向量机和因子分析方法9-10则代表 GMM-UBM 方法的新成果。总之, 以往关于说话人辨认的研究主要集中在 GMM、HMM、SVM、LR 等可以看作含有一层隐含层的模型。但是进入到 21 世纪, 由于互联网
10、、物联网产业的迅速发展, 人类对大数据的处理的要求越来越高, 传统的浅层模型无法适应这一需求, 为了解决这一需求, 深度学习模型应运而生。深度网络模型起源于 BP 网络, 所不同的是它通过逐层预训练和反向微调完成了参数的训练, 从而避免了参数陷入局部最小值。本文尝试探索深度神经网络在说话人辨认上的应用, 并且使用 Re LU (Rectified Linear Unit) 对其进行改进。1 改进的深度神经网络模型深度学习的基本模型11目前通常有 3 种:深度信念网络 (Deep Belief Network) 、自动编码机 (AutoEncoder) 和卷积神经网络 (Convolutiona
11、l Neural Network) 。卷积神经网络主要应用在图像识别方面, 因此本文主要研究前两种模型在说话人辨认上的应用。1.1 深度信念网络深度信念网络 (DBN) 12是由受限玻尔兹曼机 (RBM) 堆叠而成。一个 RBM 是由可视层 v 和隐含层 h 构成的两层结构。假设它们的各个单元都服从伯努利或高斯分布。再加上连接权重 w、两层的偏置, 我们便可以计算 RMB 的能量函数。它是关于可视层单元和隐藏层单元的联合分布。在训练 RBM 时采用对比散度 (CD) 算法简化计算。将多个 RBM 堆叠就形成了 DBN, 下层的 RBM 的输出作为输入送给一层。逐层进行训练, 最后将网络参数送给
12、普通的神经网络, 使用 BP 算法进行有监督的微调13便完成了整个 DBN 的训练。1.2 降噪自编码降噪自编码 (SDAE) 是自动编码机的一种, 整体结构与 MLP 相同。只是训练的方式有所不同。当我们对每一层网络单独训练的时候14, 往往发现新得到的特征对前一层的特征对于研究对象有更好的表达能力。假设某一层有 N 个神经元, 那么我们首先构造一个 N-N 的两层网络, 使用上一层给予的输出作为该层的输入训练此两层网络直至收敛, 并且将输出作为输入送给下一层。所有层网络训练结束和前面描述的 DBN 一样进行 BP 微调。降噪编码机的原理15是我们人为的在每一层的输入上随机叠加少量的噪声然后
13、开始训练, 这样可以防止数据的过拟合并且可以很好地抑制噪声16。1.3 整流线性单元Hinton 和 Nair 于 2008 年在 RBM 上使用整流线性单元17Re LU (Rectified Linear Unit) 完成了分类问题。因此我们设想使用 Re Lu 作为深度网络的神经元代替传统的 sigmoid 或者 tanh 函数。Re Lu 的激活函数的数学表达式为:max (x, 0) , 如图 1 所示。图 1 Re LU 激活函数 下载原图从生物学角度来讲, 生物学家研究了突触对于输入信号的激发率, sigmoid 类函数在 0 出具有稳定的状态并且具有对称性, 这都与生物学激活函
14、数矛盾。而Re Lu 则满足这两个条件。再者, 研究发现人类神经元的编码方式具有稀疏性, 同一时间只有约 1%4%的神经元被激活。但是传统的没有经过预训练的 BP 网络在不适用稀疏性限制条件的情况下使用 sigmoid 类函数不能满足稀疏性条件。Bengio 等证明 Re LU 在 MNIST、CIFAR10、NORB 等训练集上的表现是稀疏的, 因此考虑采用 Re LU 对深度神经网络进行改进。Re LU 存在的一个问题是它的函数值是无界的, 因此对于未经预训练的网络权重和偏置需要进行不同程度的调整。更准确地说, 对于第 i 层网络, 我们有一个系数 i, 然后将权重和系数调整为:网络的输出
15、修改为:因此只要保证 , 就可以确保网络的一致性。上面讨论的是有监督训练 Re LU 的情况, 下面我们分别讨论使用 SDAE 和使用 RBM 作为预训练模型时使用 Re LU 的参数更新问题。当使用 SDAE 作为预训练模型时, 我们定义 x 珓为对样本 x 加噪后的矢量, s () 表示 sigmoid 函数, 为模型参数 (W, b, W, b) 。我们重新定义整流函数为:我们使用以下方案对其就行修正:对编码层的激活值进行归一化到 0 和 1 之间, 然后在重构层使用 sigmoid 函数, 使用交叉熵作为代价函数:使用 DBN 作为预训练模型时, 为了让每一个神经单元表达更多的信息,
16、Hinton提出将伯努利单元看 M 个伯努利单元的重复叠加18, 这些单元使用相同的权值和偏置。我们使用加噪的 Re LU (NRe LU) :max0, x+N (0, v) 代替原先的二值单元。其中 N (0, v) 代表均值是 0, 方差是 v 的高斯分布。实验证明使用 NRe LU 进行预训练的 RBM 识别效果要好于普通的 RBM。2 实验与分析2.1 实验语音数据库本文实验采用的数据库是 ELSDSR (English Language Speech Database for Speaker Recognition) 。ELSDSR 数据库是一款专门用于说话人识别的数据库。它由丹麦
17、科技大学的数学信息系师生共同录制完成。该数据库总共包含 23 名说话人数据, 其中有 21 名丹麦人, 1 名爱尔兰人和 1 名加拿大人。这些人员中有10 名女性和 13 名男性。语音的采样频率为 16 000Hz。经过计算, 总体训练数据和测试数据的平均每人的时长分别为 82.9 s 和 17.6 s。本文的实验是基于该数据库所有 23 人的语音完成的, 特征参数取 2 阶差分 MFCC, 帧长取 16 ms。2.2 参数设置与结果分析首先本文研究了网络模型对深度网络识别效果的影响, 取每个说话人 10 s 语音作为训练数据, 测试时间为 2 s。网络结构分别使用 1、2、3 层隐含层。神经
18、元数目分别使用 20、50、100、200、400。为了方便讨论我们设置每层的神经元数目相同。对于初始参数的设置, 下列参数的选择将从这些范围内手动选择以获取最优识别率:BP 学习率 (0.1, 0.05, 0.02, 0.01, 0.005) , 预训练学习率 (0.01, 0.005, 0.002, 0.001) , 加噪系数 (0, 0.1, 0.2, 0.4) , 稀疏系数 (0.02, 0.05, 0.1, 0.2) 。图 2 显示了 3 种模型不同结构下的最优错误识别率。图 2 错误率随网络规模变化图 下载原图观察图 2, 当隐含层数较少或者神经元个数较少时没有经过预训练的 BP
19、网络性能较优, 当只有 1 层隐含层时, 神经元个数达到 200 时 SDAE 的错误率才和 BP的相当, 而当隐含层数为 2 层和 3 层时, 神经元个数达到 100 和 50 时 SDAE 的性能就将接近并超过 BP。DBN 也同样, 可以发现神经元数目较少的情况下 SDAE的性能与 DBN 相比较优, 神经元数目较多的情况下则相反。可以看到, 过少的隐含层数及隐含节点数会降低深度模型的性能。原因可以这样解释, 预训练模型的作用是提取输入特征中的核心特征, 由于稀疏性条件的限制, 假设神经元个数过少, 对于一些输入样本的输入, 只有少量的神经元被激活, 而这些特征无法代表原始的输入, 因此
20、丢失了一些信息量, 造成了性能的下降。虽然网络规模越大深度模型的性能越好, 但同时训练时间也加长了。Re LU 激活函数的导数为 1, 极大地简化了反向传播算法的计算, 因此可以有效提升模型的训练速度。下面我们分别对使用 sigmoid、Re LU、softplus 的 BP、SDAE、DBN 模型进行了说话人识别实验。BP 模型即未经过预训练的深度网络。同样, 对于每个说话人使用 10 s 的训练数据, 测试时间为 2 s。每一种模型都使用 3 层隐含层, 每层有 100 个神经元。对于 SDAE, sigmoid 作为激活函数时我们使用交叉熵作为重构误差, 而 Re LU 和 softpl
21、us 作为激活函数时用平方误差作为重构误差。对于预训练深度模型加噪系数取 0.05。对于所有的学习率, 我们在 (1, 0.1, 0.01, 0.001) 中间选取最优。迭代终止条件设为误差小于 0.001。并且我们对目标函数添加了惩罚系数为 0.01 的 L2 惩罚因子防止参数过大。下表分别显示了 3 种函数在不同模型下的识别效果以及训练时间。表 1 不同激活函数与深度模型结合的误识率 下载原表 表 2 不同激活函数与深度模型结合的训练时间 下载原表 分析上表可以得出以下两点结论:(1) 是否进行预训练对 Re LU 性能的发挥取重要的作用。我们发现在未经预训练的情况下, Re LU 的误识
22、率为 12.03%, 相比于 sigmoid 函数下降了 14 个百分点, 性能甚至超过预训练的模型, 而在经过预训练的情况下 Re LU 的识别效果并未有明显的改善, DBN 使用 Re LU 误识率下降比 SDAE 多, 从某种意义上来说RBM 与 Re LU 更匹配。因此是否适当调整预训练模型以改善 Re LU 的识别率值得继续研究。(2) 从训练时间上看, 3 种函数对应的训练时间分别为 Re LUsoftplussigmoid, 其中 Re LU 的训练时间相比于 sigmoid 函数平均下降了约 35%, 因此使用 Re LU 无论与预训练模型或者未经预训练模型都可以极大减少训练时
23、间, 有效地解决了深度模型训练时间长的问题。3 结语深度神经网络模型被大量应用于计算机视觉的研究, 本文探索性地将其应用于说话人辨认。基于 ELSDSR 数据库进行了全面的实验分析, 证明了当隐层节点数超过一定数量时, 深度神经网络的识别效果是优于普通的 BP 网络的, 并且随着网络规模的扩大其性能越好, 过少的隐含层和过少的节点数会影响深度模型的性能。但是注意到随着深度网络模型的扩大, 其训练时间明显增长, 为了解决这一问题, 本文提出将 Re LU 应用于说话人辨认的深度模型, 分别将其应用于未经预训练和经过预训练的深度网络, 实验结果表明改进后的深度模型平均训练时间减少了 35%, 平均
24、误识率降低了 8.3%, 并且网络的平均稀疏度有了明显提升。但是 Re LU 对经过预训练的深度模型的提升效果并不明显, 平均误识率仅仅降低了 5.5%, 远低于其对未经预训练的网络性能的提升, 因此未来的研究工作可以着眼于改进深度模型的结构和训练算法以和 Re LU 有效结合。参考文献1Abu El-Yazeed M F, El Gamal M A, El Ayadi M M H.On the Determination of Optimal Model order for GMM-Based Text-Independent Speaker IdentificationJ.Journal
25、on Applied Signal Processing, 2007 (8) :1078-1087. 2Formisano E, de Martino F, Bonte M, et al.Whos Saying What?Brain-Based Decoding of Human Voice and SpeechJ.Science, 2008, 322:970-973. 3Tagashira S, Ariki Y.Speaker Recognition and Speaker Normalization by Projection to Speaker SubspaceJ.IEICE, Tec
26、hnical Report, 1995, SP95-28:25-32. 4Liu C S, Wang H C.Speaker Verification Using Normalization LogLikelihood ScoreJ.IEEE Trans Speech and Audio Precessing, 1980, 4:56-60. 5Douglas A Reynolds.Speaker Identification and Verification Using Gaussian Mixture Speaker ModelsJ.Speech Communication, 1995, 1
27、7:91-108. 6Matsui TFurui S.Concatenated Phoneme Models for Text Variable Speaker RecognitionC/Proc IEEEInter Conf on Acoustics, Speech, and Signal Processing (ICASSP93) 1993:391-394. 7Markov K, Nakagawa S.Text-Independent Speaker Recognition System Using Frame Level Likelihood ProcessingJ.Technical
28、Report of IEICE, 1996, SP96-17:37-44. 8Dehak N, Dehak R, Kenny P, et al.Comparison between Factor Analysis and GMM Support Vector Machines for Speaker VerificationC/The Speaker and Language Recognition Workshop (Odyssey2008) .Stellenbosch, South Africa:ISCA Archive, January 2008:21-25. 9Campbell W M
29、, Sturim D E, Reynolds D A, et al.SVM Based Speaker Verificationusing a GMM Supervector Kernel and NAP Variability CompensationC/IEEEInternational Conference on Acoustics, Speech and Signal Processing.Toulouse:IEEE, 2006, 1:97-100. 10Ferras M, Shinoda K, Furui S.Structural MAP Adaptation in GMM Supe
30、r Vector Based Speaker RecognitionC/IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) .Prague:IEEE, 2011:5432-5435. 11Bengio Y.Learning Deep Architectures for AIJ.Machine Learning, 2009, 2 (1) :1-127. 12Safari P, Ghahabi O, Hernando J.Feature Classification By Means o
31、f Deep Belief Networks for Speaker RecognitionJ.Eusipco, 2015. 13Kenny P, Gupta V, Stafylakis T, et al.Deep Neural Networks for Extracting Baum-Welch Statistics for Speaker Recognition.Odessy, 2014. 14Erhan D, Bengio Y, Courville A, et al.Why Does Unsupervised Pre-Training Help Deep LearningJ.Journa
32、l of Machine Learning Research, 2010, 11 (3) :625-660. 15Vincent P, Larochelle H, Bengio Y, et al.Extracting and Composing Robust Features with Denoising AutoencodersC/Machine Learning, Twenty-Fifth International Conference, 2008:1096-1103. 16Jiang Xiaojuan, Zhang Yinghua, Zhang Wensheng, et al.A No
33、vel Sparse Autoencoder for Deep Unsupervised LearningC/Sixth International Conference on Advanced Computational Intelligence, 2013:256-261. 17Nair V, Hinton G E.Rectified Linear Units Improve Restricted Boltzmann Machines.Proc Icml, 2010 (1) :807-814. 18Jaitly N, Hinton G E.Learning a Better Respresentation of Speech Soundwaves Using Restricted Boltzmann Machines.ICASSP, 2011:5884-5887.