收藏 分享(赏)

基于GMM说话人识别系统软件设计.doc

上传人:HR专家 文档编号:11255626 上传时间:2020-03-04 格式:DOC 页数:54 大小:1.42MB
下载 相关 举报
基于GMM说话人识别系统软件设计.doc_第1页
第1页 / 共54页
基于GMM说话人识别系统软件设计.doc_第2页
第2页 / 共54页
基于GMM说话人识别系统软件设计.doc_第3页
第3页 / 共54页
基于GMM说话人识别系统软件设计.doc_第4页
第4页 / 共54页
基于GMM说话人识别系统软件设计.doc_第5页
第5页 / 共54页
点击查看更多>>
资源描述

1、 本科生毕业论文(设计)中文题目:基于GMM说话人识别系统软件设计英文题目:Software design of speaker recognition system based on GMM 学生姓名:虢明 班级: 7班 学号: 52070724学 院:通信工程学院专 业:信息工程指导教师:王金芳 职称: 副教授基于GMM说话人识别系统软件设计学 生 姓 名:虢明 班 级:7班 学 号:52070724学 院:通信工程学院 专 业:信息工程系指 导 教 师:王金芳(副教授)摘 要1摘 要语音是实现人们之间沟通的最直接与方便的手段,而实现人与计算机之间畅通无阻的交流一直是人们努力的目标。随着信

2、息技术的发展,计算机的应用日新月异,随着时代的前进,说话人识别技术也要求用计算机来处理。说话人识别技术是一种从语音数据中提取出能反映说话人生理和心理特征参数,并用这组特征参数来鉴别说话人身份的技术。一段语音数据中包含了太多的信息,而说话人识别的一项目标就是从语音信号中提取出反映说话人特征的参数。本文详细写出了说话人识别技术中应用得比较多的参数梅尔倒谱特征参数(MFCC)的提取过程。说话人识别分为训练和测试两部分,本文的说话人识别模型采用的是高斯混合模型(GMM )。文章中详细说明了高斯混合模型的训练方法和说话人识别时的模式匹配。本文利用VC+6.0平台设计并编写了说话人识别软件,软件功能有语音

3、文件的读取、语音信号的预处理、提取语音信号中的梅尔倒谱特征参数、高斯混合模型的训练以及说话人测试等。在现实中,不可避免的语音信号会受到噪声的影响,语音噪声主要有信道中的卷积失真和加性噪声,本文介绍了这两种噪声的处理方法。梅尔倒谱特征参数利用了听觉原理和倒谱的解相关特性,梅尔倒谱也具有对卷积性信道失真进行补偿的能力,由于这些特征,梅尔倒谱特征被认为是在语音相关识别任务中应用最成功的特征描述之一。高斯混合模型以其灵活、有效和对噪声的鲁棒性得到了人们越来越多的应用。关键词: 说话人识别 Mel倒谱特征参数 高斯混合模型 Mel滤波器组 软件设计ABSTRACT2ABSTRACTVoice commu

4、nication between people is to achieve the most direct and convenient means, and between man and computer communication has been a smooth one goal. With the development of information technology, computer applications with each passing day, with the progress of the times, speaker recognition technolo

5、gy is also required to deal with the computer. Speaker recognition technology is a voice data extracted from the reflected physiological and psychological characteristics of the speaker parameters, and parameters used to identify this group speaker identification technology. A voice data contains to

6、o much information, and speaker recognition, a goal is to extract from the speech signal characteristics that reflect the parameters of the speaker. This paper written by the application of speaker recognition technology more than the parameters - Mel Cepstrum parameters (MFCC) of the extraction pro

7、cess. Speaker recognition is divided into two parts, training and testing, this model of speaker recognition using Gaussian mixture model is (GMM). Article details the method of Gaussian mixture model training and speaker recognition when the pattern matching. This platform design using VC + +6.0 an

8、d the preparation of the speech recognition software, the software functions to read audio files, voice, signal preprocessing, extraction of speech signals in the Mel Cepstrum parameters and Gaussian mixture model training Speaker test. In reality, the inevitable speech signal will be noise, speech

9、noise, the convolution of the main channel distortion and additive noise, this paper introduces two noise approach. Mel Cepstrum parameter theory and the use of hearing-related characteristics of the solution Cepstrum, Mel cepstrum also has the convolution of the channel capacity to compensate for d

10、istortion, as these features, Mel Cepstrum is considered to be in voice related recognition task applied one of the most successful characterization. Gaussian mixture model with its flexible, effective and robust to noise got more and more applications. Key words: Speaker recognition; MEL cepstrum c

11、haracteristic parameters(MFCC); ABSTRACT3Gaussian mixture model(GMM); Mel filter banks; Software design目 录1目 录第一章 绪论 11.1 本文研究背景 11.2 说话人识别问题 11.3噪声环境下的说话人识别 .41.4 说话人识别系统结构 51.5 本文的结构安排 6第二章 特征提取 72.1 采样量化 82.2 预加重 82.3 加窗 82.4 傅里叶变换 92.5 Mel滤波器组 102.6 Mel倒谱特征 12第三章 说话人识别模型 .143.1 高斯混合模型概述 .143.3 模

12、式匹配 .163.4 模型的评价 .17第四章 软件设计 .194.1 软件流程图 .194.2 各部分的代码处理 .224.3 软件处理过程和中间结果 .314.4 软件处理结果 .35目 录24.5 本章总结 .37第五章 总结和展望 .385.1 总结 .385.2展望 38致 谢 40参 考 文 献 .41第一章 绪论1第一章 绪论说话人识别技术是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说活人身份的技术 1。由于每个人的声道形状、喉大小以及其他发声器官的生理学特征不完全相同,加上每个人都有其各自的发声特有方式,包括特定口音、声调、节奏、语调风格等,因此,没有两个人

13、的发声完全相同。 2只要能提取出表征不同说话人的特征参数,就能对其加以识别。1.1 本文研究背景本文用的是梅尔倒谱特征参数(MFCC) 和高斯混合模型 (GMM)进行的说话人识别。说话人识别的一个重要应用是取证,其首先应用于司法,最早的研究可以追溯到20世纪30年代 3。说话人识别可以应用于需要进行身份认证的各种安全领域 3、4 ,随着互联网技术的发展,说话人识别也应用到语音检索和信息检索中,在模仿人类的一些特定机能方面比如说图像识别、语音识别等,相对而言,只有说话人识别的性能堪与人类媲美,甚至超过人类 5。以声音作为识别特征,其具有非接触性和自然性,相比于指纹识别和虹膜识别,用户既不用手指接

14、触探测器也不用将眼睛凑向摄像头,只需要简单的说几句话,用户容易接受。其次,说话人识别对系统的硬件要求不高,成本比较低。再有,对于远程应用和移动互联环境,声音恐怕是唯一可用的了。因此,说话人识别越来越受到人们的重视,在计算机领域得到了广泛关注。说话人识别系统包括特征提取、模型训练、模式匹配以及逻辑决策四个主要模块。首先从一段语音信号中提取出能唯一表征说话人特征的特征参数,然后用这些参数来训练参数,以建立能唯一表征此说话人的模型。然后从一个陌生语音信号中提取出特征参数,用此参数来匹配已建立的各个模型,找到可能性最大的那一个模型,这个模型所对应的人就认为是识别结果。1.2 说话人识别问题1.2.1

15、说话人识别概述说话人识别技术是一种从语音信号中自动识别出说话人身份的技术。说话人识别系统包括特征提取、模型训练、模式匹配以及逻辑决策四个主要模块。说话人识别可分为与文本有关的和与文本无关的 2,与文本有关 24是指说话人说的话是指定了的,第一章 绪论2与文本无关的是指说话人说的话没有指定,本文采用的是与文本无关的说话识别。经过多年的发展,说话人识别技术得到了非常大的进步,但是仍然存在一些困难和挑战,这些挑战有 1:尚未找到简单可靠的说话人语音特征参数。语音信号中包含了说话人的情感、语义、发声器官个性特征,要将它们分离开来比较困难。语音信号的漂移性。说话人的语音特征不是固定不变的,有很大的变异性

16、,易受情绪、环境以及身体健康状况的影响。开发大规模的识别系统。说话人识别要将特征空间划分为N个特征子空间,当N增大时,说话人识别系统将受到很大的制约 6。发音伪装,短语音识别。声音信号有时会被伪装,给识别造成了一定的困难,一般来说,要得到一个说话人准确和完全的特征参数,训练语音的长度就有一定的要求,要有足够长度。针对于这些困难和挑战,作为表征说话人特征的参数应该考虑到以下几点 2、7 :相同的人的可变性要小,不同的人的可变性要大;对噪声和失真具有鲁棒性;语音信号经常变化;易于从语音信号中提取;难以模仿;不受说话人的健康状况或语音长期变化的影响。1.2.2 说话人识别的应用说话人识别具有各种各样

17、的优点,以声音为特征的身份鉴证也得到了蓬勃的发展,主要应用领域有:为公安部门进行身份验证,为用户提供密码保护等;与互联网结合起来,可用于电话语音服务,语音会议,电话服务,语音电子邮件,安全验证等;电话呼叫中心,对来人进行身份验证;银行、证券等,为用户设立语音密码,省掉了为记录密码的麻烦;第一章 绪论3网络安全,可以应用于网上购物,电子商务以及国际贸易等;司法破案,只要能采样到电话绑架和勒索者得语音信号,就能立即判断出罪犯身份;军队安全系统中,可以对发布军事指令者进行身份鉴别。1.2.3 说话人识别研究历史和现状声纹的概念的提出,可以追溯到1945年,由贝尔实验室的L.G. Kesta 提出,成

18、为声纹识别领域的一个标志, 接着,1962年,其提出了说话人识别的可能性。贝尔实验室的S.Pruzansky提出的基于模板匹配(template matching)和统计方差分析的说话人识别方法。之后,说话人识别得到了蓬勃的发展,倒谱技术的应用使说话人识别提高的一个大的档次,1969年,Luck JE提出的说话人识别技术就应用了倒谱技术,并且取得了良好的结果。之后,BS Atal又应用线性预测倒谱系数(linear predictive cepstrum coefficients, LPCC)10、11 ,提高了说话人识别的精确度和准确度。Doddington 提出利用共振峰进行说话人确认,1

19、972年Atal用提取出的基频轮廓进行说话人识别 12。在数字信号上的应用,人们提出来了间接反映说话人特征的参数,如LPCC 13、LSFs系数 13、PLP系数 14。1980年,Steven B.Davis最早提出了梅尔倒谱系数(MFCC)的概念 9。1981年,Furui等人提出了动态时间规整(dynamic time-warping)模型 15,1987年,Soong等人提出了向量量化(vector quantizatization)模型 16,1989年,Naik等人提出了隐马尔科夫模型(hidden Markov model,HMM)模型 17,1994年Farrell等人提出了人

20、工神经网络(artificial neural network.,ANN)模型 18,这些技术由于其独特的优越性,使其在说话人识别领域得到了广泛的应用。Reynolds提出高斯混合模型(Gaussian mixture model,GMM)19,GMM模型有其独特的简单性、灵活性,并且对噪声也具有良好的鲁棒性,在有噪声的说话人识别系统中占据了核心地位,而首次对GMM模型进行详尽介绍的也当归功于Reynolds ,此后,GMM将说话人识别带入了成熟阶段。第一章 绪论4目前,新的说话人识别技术如雨后春笋般蓬勃发展起来,如将与文本无关的说话人识别、支持向量机(SVM) 20和GMM结合 21、22

21、起来的大词表连续语音识别(LVCSR)技术,还比如说有语音信号中对于高层信息的应用,还有说话人规整技术,以及潜伏因子分析(LFA)技术,等等。然而,到目前为止,基于高斯混合模型的说话人识别系统当之无愧是在与文本无关的说话人识别系统中最优秀的,特别是统一背景模型最大后验概率估计(UBM-MAP)结构 23。MFCC参数结合了人耳的听觉特性,该特征参数利用了听觉原理和倒谱的解相关特性 9,被认为是最能体现出说话人特征的参数之一。理论表明,任何光滑的连续函数都可以用高斯概率密度函数及其混合来逼近,使基于高斯混合模型(GMM)的说话人识别成为了说话人识别领域中的主流技术。本文的软件设计就是利用的MFC

22、C参数和GMM模型。1.3噪声环境下的说话人识别在说话人识别的实际应用中,不可避免的会受到噪声的影响,干净语音的说话人识别的正确识别率已经达到很高,一旦有噪声干扰,系统性能将会大打折扣。影响识别的噪声主要有积性噪声和加性噪声,积性噪声主要存在于信道中,即信道噪声,表现为信道失真,加性噪声是累加到语音信号中的噪声。对于说话人识别系统而言,降低噪声影响的方法主要有:1)在信号处理之前先进行预处理,方法有语音检测和噪声消除等。2)使用对噪声不敏感的特征参数。3)使用有高噪声鲁棒性的说话人识别模型。背景噪声检测就是在语音信号中检测出噪声段,并将其消除。可以用端点检测的方法检测语音信号的开始点。如果一段

23、声音信号在开始时并没有语音,只是有噪声,就可以加一个语音端点检测的模块,以消除噪声。在时域处理时可以用短时平均能量和短时平均幅度来检测。短时信号是经过加窗之后的信号,假设语音信号为 ,窗()xm函数是 ,短时平均能量定义为:(,)wnm(1-1)2(),Exwn上式是对第 帧的所有信号能量求和,事先设定了一个阈值,若能量大于阈值就认为是语音信号,反之就为噪声。短时幅度定义为:第一章 绪论5(1-2)(),nmFxwn上式 和 的意义与式(1-1)相同。可以同样设立一个阈值,当幅度大于此阈值时,就认为是语音信号。梅尔倒谱特征参数本身有较好的噪声鲁棒性,再加上高斯混合模型有较强的噪声鲁棒性,本软件

24、设计部分就没有在语音处理之前加一个语音去噪的功能。1.4 说话人识别系统结构说话人识别系统框图如图1.1所示,说话人识别系统可分为训练阶段和测试阶段,具体有特征提取、模型训练、模式匹配以及逻辑决策4个主要方面。训练阶段测试阶段识别结果图1.1 说话人识别系统框图(1)特征提取。特征提取是指从语音信号中提取出能表征说话人的参数的过程。要经过加窗、傅里叶变换、梅尔滤波器组滤波得到梅尔倒谱系数。(2)模型训练。模型训练是指用(1)中已经得到的特征参数来估计模型参数,这些参数就代表了模型。然后将得到的模型参数存储于数据库中。此过程给每个说话人都建立了模型。(3)模式匹配。用从测试音提取出来的特征对模型

25、库进行匹配,计算匹配距离。在说话人识别过程中,要对每个人的模型进行匹配。(4)决策逻辑。从匹配距离判断测试音是哪个说话人,并给出识别结果。录音 特征提取 模型训练录音 特征提取 模式匹配决策逻辑模型数据库第一章 绪论61.5 本文的结构安排本文采用MFCC参数和GMM模型进行说话人识别。文中给出了说话人识别的每个具体过程,并用VC6.0系统编辑软件完成整个设计,给出软件的识别过程分析和识别结果。第二章是特征提取。给出特征提取具体过程,包括采样、加窗、傅里叶变换、梅尔滤波器组的设计、梅尔倒谱特征的计算。详细给出了每一部分的数学表示和实际处理方式。第三章详细给出了高斯混合模型的设计,怎样用特征参数

26、来训练模型,以及怎样用特征参数来匹配高斯混合模型。这部分的内容对数学计算的要求比较大,用C+实现时需要大量的数学函数或类,论文中都给出了实现的算法。第四章是软件的详细设计。给出了用C+实现时类的处理函数,列出了一些重要的过程和函数的处理代码,并给出了识别过程的中间结果和最终的识别结果。第五章是结论和展望,针对本次设计结果得出的结论,以及设计中注意事项。同时给出说话人识别领域的一些个人见解和展望。第二章 特征提取7(,)kXn第二章 特征提取声音是一种非常复杂的信号,包含了语音学的、语义学的、声学的、发声学的各种信息,要从声音信号中提取出表征个体不同的差异性,反之,这些差异性用以区分不同的个体。

27、在语音信号的处理过程中,我们必须从一大段语音信号中提取出代表这段语音的特征参数,这个过程就叫做特征提取。特征提取过程框图如图2.1所示。图2.1 特征提取过程特征提取过程分为四个阶段:采样量化,预加重,加窗,特征提取。声音信号是模拟信号,只有先进行量化转化为数字信号才能用计算机进行进一步的处理。一般的,我们都是将声音信号保存文波形文件(.WAV文件),这就已经是数字的了。对于高频信号,其幅度是比较弱的,要先进行预加重,使高频信号和低频信号幅度相当,以免丢失重要的高频信号。语音信号的变异性比较大,研究表明,当语音信号长度相当小(一般取20-30ms)时,可认为是平稳的,这就是语音信号的短时平稳性

28、 25。经过加窗处理,得到语音帧信号,继而对每一帧进行特征提取的处理,得到每一帧的特征向量。一般用到的特征参数有线性预测系数(LPC)、梅尔倒谱系数(MFCC)、Delta特征和Delta-Delta特征、声门特征等,鉴于MFCC在说话人识别中的良好特性,本文采用MFCC特征。假设数字语音信号为 ,窗函数数组为 ,MFCC参数的提取过程如图2.2所示()xm(,)wnm。 ()xm图2.2 MFCC参数提取流程采样量化 预加重 加窗 特征提取音信号模拟语高中低频率相当的语音信号语音帧特征向量数字语音信号DFT | 能量 (,)melEn(,)wn()lkV第二章 特征提取8数字信号 经过加窗后

29、进行傅里叶变换,转换为频域信号 ,接下来()xm(,)kXn的幅度被一系列的梅尔滤波器加权,加权后的能量再取对数,继而对对数能(,)kXn量进行傅里叶反变换,这样得到的就是梅尔倒谱特征参数。接下来,对每一部分的处理进行详细说明。2.1 采样量化声音信号都是模拟信号,为了对语音信号方便地进行数字处理,首先必须对模拟信号数字化。对模拟信号周期性采样就得到数字信号序列,这就是数字化的过程。只要采样频率满足耐奎斯特采样定律(可参见任何一本数字信号处理书),采样后的数字信号就能代表原来的模拟信号。采样定律可表述为:假设原始信号表示为 ,其最高频率为 ,只要采样频率 ,采样信号就()stf 2sf能还原出

30、原始信号。采样后的信号幅度还是连续变化的,若不量化,信号占用的存储空间就比较大。量化是把有连续变化幅度的信号转化为只有几个固定幅度的信号,然后用特定的二进制码字代表一个幅度的过程。为方便存储,量化位数一般为8位,也就是1Btye。对于.wave波形文件而言,一般地,若是单通道,就用8位,若是双通道,就用16位。8位和16位波形文件的编码方式不完全一样,具体可以参考wave文件的头文件说明,本文软件设计部分有介绍。2.2 预加重由于唇辐射引起的能量损耗,导致语音信号在高频处能量降低,一般是频率越高幅值越小,若不事先进行高频增强将不便于后续分析。经过预加重处理的信号在高频处信号幅度与中频处相差不大

31、。预加重的方法是将信号通过一个数字滤波器,滤波器的传递函数为: ,转化为数字域是: 。 是预加重1()Hza()(1)ynxan系数,取值为 ,一般取0.95。012.3 加窗加窗是将一段语音信号分为一个个短时段,每一个短时段称为一帧,帧长记为N(以ms为单位)。为了得到每一帧信号,需要用短时窗函数 与原始信号 相乘。()wn()sn常用的窗函数有三种:第二章 特征提取9(1)矩形窗:(2-1)1,01()nNwn其 他(2)汉明(Hamming)窗:(2-2)20.546cos,01()1nnNwnN其 他(3)汉宁(hanning)窗:(2-3)20.5cos,01()1nNwnN其 他在

32、时域处理一般采用矩形窗,但是在频域处理时,矩形窗边界不连续会丢失掉一部分信息,因此常采用汉明窗。同时,为了尽可能的不丢失语音信号变化的信息,还使用滑动窗,使帧和帧之间有一定的重叠,一般取帧移量为帧长的一半。经加窗处理后的信号可表示为 ,n表示第n帧,m表示信号点。本次软件设计采用汉明窗。(,)s2.4 傅里叶变换加窗后的每一帧信号都要进行傅里叶变换,以便进一步提取特征。由于信号是短时信号,所以又叫做短时傅里叶变换(STFT)。假设数字信号为 ,窗函数为()xm()w,经傅里叶变换后的信号为 ,则有:(,)kXn(2-4)(,)(),kjmkmxwe上式中, 是频率, 是傅里叶变换长度, 表示第

33、 帧。在实际处理中2kNn,一般用的是快速傅里叶变换(FFT),其占用系统时间在 越大时越能体现出其优越N性。快速傅里叶变换的原理和算法可以参见任意一本数字信号处理书。第二章 特征提取102.5 Mel滤波器组由图3可见,从式(2-4)得到的 的幅度 接下来被一系列的滤波器频率响应加权,这些滤波(,)kXn(,)kXn器就被称为Mel刻度的滤波器。根据Davies和Mermelstein的观点 26,可用一组Mel刻度的滤波器来表达人耳对声音音调频率的感觉。Mel频率和实际频率之间的转化关系 27为:(2-5)()259lg(1/70)Melff式中, 为频率,以 为单位, 为梅尔频率,以Me

34、l(唛)为单位,表示fHzelf音调的大小。在1000Hz内,可认为梅尔频率和实际频率呈线性关系,在大于1000Hz时,可用式(2-5)进行转化。梅尔滤波器组在用梅尔频率刻度时,是线性的,频率范围囊括人耳频率范围或者是采样频率的一半。为了尽可能不丢失幅度信息,梅尔滤波器之间有一定的重叠,滤波器组图形如图2.3所示。图2.3 梅尔滤波器组函数图有时,需要根据各滤波器的带宽对滤波器进行归一化处理,使得对于有着平坦频谱的输入,各滤波器将输出相等的能量。归一化后的滤波器组可参见图2.4。第二章 特征提取11图2.3和图2.4中,每一个滤波器所占频率范围在Mel刻度上都是相同的,每一个滤波器频带范围都是

35、在上一个滤波器的中心频率到下一个滤波器中心频率之间。图2.4 归一化后的梅尔滤波器组梅尔滤波器组可表示为:(2-6)0 (1)21(1()()()1)()()0m kfmkfmff fVkf fkffffm 上式中, 表示第 个Mel滤波器函数, 表示第 个Mel滤波器的中心离散频()mVk ()f率, 表示频率范围。表2-1列出了这一组滤波器的中心频率和频带范围。第二章 特征提取12表2-1 梅尔滤波器中心频率和频带宽度滤波器编号 中心频率(Hz)频带范围(Hz)滤波器编号 中心频率(Hz)频带宽度(Hz)1 100 0-200 13 1395 1242-15602 200 100-300

36、14 1560 1395-17383 300 200-400 15 1738 1560-19304 400 300-500 16 1930 1738-21375 500 400-600 17 2137 1930-23606 600 500-700 18 2360 2137-26017 700 600-800 19 2601 2360-28618 800 700-900 20 2861 2601-31419 900 800-1000 21 3141 2861-344410 1000 900-1100 22 3444 3141-377011 1100 1000-1242 23 3770 3444-

37、412212 1242 1100-1395 24 4122 3770-41222.6 Mel倒谱特征信号按式(2-4)进行傅里叶变换后转化为频域信号,其幅度被式(2-6)表示的梅尔滤波器组响应加权,以此来计算能量值。设第 个梅尔滤波器为l()lkV,则位于第 帧的语音信号的第 个Mel刻度滤波器输出的能量为:nl(2-7)21(,)(),llUmel kkkLEVXnA其中, 和 表示各个滤波器在非零取值区间的最低频率和最高频率, 为:lLlU lA(2-8)2()lllkkLAV第二章 特征提取13根据 求出的实倒谱称为Mel倒谱,位于第 帧的语音的Mel倒谱为:(,)melEn n(2-9

38、)102(,)log(,)cosRel melCEnlR其中, 是滤波器个数, 的取值范围是 。上式实际上是对能量的对数R1进行傅里叶反变换,由于能量的对数都是实数,实际就是离散余弦变换log(,)melEn。实际上,至此,求出来的 就是MFCC,每一帧语音都有一个MFCC,而MFCC的维(,)melCn数就是梅尔滤波器个数。用这样得到的MFCC参数来训练(即估计)模型,得到模型的参数,这些参数就代表了模型,而每一个人都要建立一个这样的模型,不同的人的模型参数是不同的,因此,不同的模型参数也就代表了不同的说话人。第二章 特征提取14第三章 说话人识别模型15第三章 说话人识别模型说话人识别有各

39、种各样的模型,包括矢量量化模型 16、隐马尔科夫模型 17、人工神经网络模型 18和高斯混合模型 19等。GMM模型有其独特的简单、灵活性,并且对噪声也具有良好的鲁棒性,在有噪声的说话人识别系统中占据了核心地位。本文即使采用的GMM模型。每一个人的模型形式都是相同的,只是模型的参数不同,为每一个人建立的模型事实上都是特征参数的模型。3.1 高斯混合模型概述每个说话人的特征参数在特征空间形成了特定的分布,可以用这样的分布来表示不同的说话人。每个人说话时都可能处在不同的状态,这样的状态不同就反映在特征矢量的不同上,一个状态就表示一个高斯概率分布,可以用I个状态来表示一个说话人,这样一个说话人模型就

40、可用I个高斯概率函数的混合来逼近。特征矢量 对于第 个xi状态的高斯概率密度函数可写为:(3-1)1122()TiiixxiRibxe其中, 是状态平均矢量, 是状态协方差矩阵, 是特征矢量的维数,而这个维ii R数是与Mel滤波器个数直接挂钩的,可以取全部滤波器个数,也可以取一部分。状态平均矢量 是特征矢量 的期望值,协方差矩阵 的非对角线元素代表着特征矢量元i xi素的互相关,而对角线元素代表着特征向量元素的方差(相当于自相关)。一个特征矢量所代表的状态可能属于这I个既定状态中的任何一个,因此,这是一个概率问题。对于某一个特定的说话人模型(这个模型用 表示)而言,这个概率在理论上可以用不同

41、的高斯概率密度函数的混合或者叫联合来表示:(3-2)1|Iipxpbx其中, 已在式(2-()ib10)中给出,表示混合密度分量, 是混合分量的权重,满足关系式:ip第三章 说话人识别模型16(3-3)1Iip3.2 模型的训练从(2-10)到(2-12)可见,要能完全描述一个说话人的模型,只需知道参数 、 和 即可,说话ipii人模型 的参数集包括GMM均值、协方差和权重,即:(3-4),iip要得到 ,就要对模型进行训练,这个过程也叫做模型的参数估计。,ii一种训练(或者叫做参数估计)高斯混合模型参数的方法是最大似然估计法,即关于,求出概率 ,并使其取得最大值,其中特征矢量集合 是|pX

42、011,.MXx某个特定的说话人的所有特征矢量全体,即所有帧的特征矢量, 是总帧数。而求这个最大概率的方法称为期望最大化法,即EM法。EM法 对于某个特定的说话人的特征矢量序列 ,这些特征矢量是所有帧信011,.MXx号特征矢量的集合,这些特征矢量集合的出现概率,它是所有可能状态的联合或者说是混合概率:1|,|IipXpi10MIniibx(3-5)10Ininp其中, 代表对所有可能的状态求和,其中 是对某个状态的加权值, 在式1Iiipnibx(2-第三章 说话人识别模型1710)中给出。我们认为,对于每一帧信号而言,帧与帧之间的相关度为零(称为语音信号的短时特性),因此上式可以直接求乘积

43、。我们把 就称为特征向量的高|pX斯混合模型(GMM)。迭代算法要求我们先得到一个高斯混合模型的估计值,记为 ,k而迭代算法的目标就是找到一个新的估计值 ,使得:1k(3-6)1|kkpXpEM算法就是在 未知时,使得对数概率似然函数 的期望值取最1k 1log|kpX大值,而特征矢量X已经在特征参数提取部分提取出来,并且事先已经假设或者得到一个当前估计,因此这一部分是已知的,对于所有的状态,我们就可以求出这个期望值,在数学上,我们可以把该期望值表示为:(3-7)1 11log| ,|log,|IkkkiEpXpXipXi EM法就是求取这个最大值,将上式视为GMM均值、协方差和权值的一个函数

44、,由微积分知道,对于连续函数而言,这个最大值函数问题的解就是将 对1log|kEpX未知的GMM均值、协方差和加权参数取偏导数而得到的,即对于 有:,ii(3-8)11=0|,Mk kninpix(3-9)110|,knknMi ipx(3-10)11 10|,Tk Tk nnknMi iiix 其中,(3-11)1|,kniknIiipbxpix第三章 说话人识别模型18是在第 次迭代中求出来的高斯概率密度函数第 个分量,协方差矩阵上脚标Tknibxk i表示对协方差矩阵取转置。把新得到的估计代替原来的估计,上述步骤反复进行直到收敛,最终得到模型的参数。迭代初始值设定:分量权重 可选为1/I

45、,状态平均矢量 可采用K均值聚类算法ipi得到,协方差矩阵可采用单位矩阵。3.3 模式匹配在说话人测试之前,要先经过模型的训练,也就是建立说话人模型,现在假设此过程已完成,即我们已经建立了S个说话人的模型并用 , 来表示。对于每j1,2.S一条测试语音信号,每一帧的特征矢量 在特征提取部分都被计算出来。判断测试语nx音信号所对应的说话人的身份的方法就是基于这些特征(每一帧信号都有一个特征向量)计算每一个说话人模型出现的概率,也就是 ,找到概率最大的模型所对|njpx应的说话人,这个过程有时候也叫做最大后验概率分类。在事先,我们已经用高斯混合模型建立了几个说话人的模型,为便于分析,我们用用于建模

46、的概率密度函数来表示 ,由贝叶斯准则:|njpx(3-12)|njjnjpx我们认为 是常量,其中 是说话人 作为产生 的模型的先验概率。假设npx()j jnx是相等的。因此,问题转化为找到使 最大的 ,而这个恰好就是在3.2()j |njpxj中已经建立起来了的高斯混合模型。一条语音信号有多少帧就有多少特征向量,因此必须最大化 ,其中M是语音特征矢量的数目即帧数。而011,.|jpx(3-13)10110,.|=|mj jxpx通过利用对数,可以把说话人识别的解写为:第三章 说话人识别模型19(3-14)10maxlog|Mmjjspx上式可理解为,对于每一帧特征向量,由式(2-11)求出

47、概率的对数之和,然后对每一个说话人模型,找出概率对数之和的最大值,其所对应的说话人模型所代表的人即作为识别结果。3.4 模型的评价对于说话人识别而言,识别结果只能是正确识别和错误识别两种,而正确识别和错误识别的概率之和等于1,因此,可以简单的用正确识别率或错误识别率来表示系统的性能。随着人们对系统的应用,人们又提出了更多的要求,主要表现在:(1)训练样本数目和训练速度。要求训练样本数目尽可能少,训练速度尽可能快,训练样本所消耗的时间尽可能少,并且在训练样本数目大时,不影响处理速度。(2)说话方式。对于用户而言,说话方式可能时时变化,这就要求系统对说话方式变得不敏感。在同一个人的不同说话方式下,

48、识别结果相差不大,及要求有一定的说话方式鲁棒性。(3)噪声的影响。好的说话人识别系统应该有很强的噪声鲁棒性,能应对噪声的干扰,处理掉噪声。(4)对识别人数的要求。自然,系统能识别的人数越多越好,但是,人数越多,系统的开销必然也越大,就会降低系统的性能。怎样设计大容量的识别系统仍然是说话人识别领域的重大研究课题。第三章 说话人识别模型20第四章 软件设计21第四章 软件设计本软件设计采用的特征参数是MFCC参数,说话人识别模型采用的是高斯混合模型(GMM)。使用的软件设计平台是VC+6.0,利用的是 VC的类向导,含有的功能有:录音、Wav文件的读取、语音波形的绘制、特征提取、模型的建立、模型的训练、说话人识别测试,给出了处理流程图、主要的类和重要的处理代码、识别过程、中间处理结果以及最终结果。4.1 软件流程图本软件设计的内容为利用MFCC参数和GMM模型进行说话人的识别,软件功能有:麦克风录音、语音文件的播放、语音文件

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 管理论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报