收藏 分享(赏)

基于混合特征提取与改进的CHMM语音识别算法研究.doc

上传人:weiwoduzun 文档编号:1886522 上传时间:2018-08-28 格式:DOC 页数:65 大小:1.58MB
下载 相关 举报
基于混合特征提取与改进的CHMM语音识别算法研究.doc_第1页
第1页 / 共65页
基于混合特征提取与改进的CHMM语音识别算法研究.doc_第2页
第2页 / 共65页
基于混合特征提取与改进的CHMM语音识别算法研究.doc_第3页
第3页 / 共65页
基于混合特征提取与改进的CHMM语音识别算法研究.doc_第4页
第4页 / 共65页
基于混合特征提取与改进的CHMM语音识别算法研究.doc_第5页
第5页 / 共65页
点击查看更多>>
资源描述

1、 基于混合特征提取与改进的 CHMM语音识别算法研究重庆大学硕士学位论文(学术学位)学生姓名:樊宇星樊宇星指导教师:鲜晓东副教授专 业:控制科学与工程学科门类:工学重庆大学自动化学院二 O一四年四月Research of Speech Recognition based on Mixture Feature Extraction and Improved Continuous Hidden Markov Model A Thesis Submitted to Chongqing Universityin Partial Fulfillment of the Requirement for th

2、eMasters Degree of EngineeringByFan YuxingSupervised by Associate Prof. Xian XiaodongSpecialty: Control Science and EngineeringCollege of Automation Chongqing University, Chongqing, China April 2014重庆大学硕士学位论文 中文摘要摘 要随着科学技术的发展,语音识别技术的产品已经走出了实验室,走进了人们日常生产生活的各个方面。目前对于语音识别中有些问题还没有得到彻底解决,尤其是声学模型的研究上。声学模型

3、的输入数据是语音的特征参数,而目前应用最广泛的梅尔倒谱系数不能够准确地、完整地表示语音中的所有有用信息,尤其是在汉语的识别中,直接影响了后面所建立的声学模型的准确性,同时对于声学模型训练过程中局部最优的问题也没有完美的解决方案,从而导致产品的性能有些还难以达到理想的使用要求。本文介绍了语音识别算法中特征提取和声学模型训练环节的研究现状。分析比较了目前各种算法的优缺点,针对主流算法中所存在的问题,提出了自己的解决方案。在特征参数提取中,提出了基于 Fisher比的混合特征参数。在声学模型训练环节,提出在模型参数的初始化阶段,根据语音训练数据的分布特点进行模型的初始化来优化训练算法。本文的研究内容

4、主要包括:特征参数的提取环节, 针对目前使用较成熟的梅 尔倒谱系数注重低频信息的不足之处,提出了改进的算法,加入中频、高频的能量分布信息,采用 Fisher比的准则将其结合组成混合特征参数。对于声学模型的 训练环节 ,针对连续隐马尔可夫模型中 训练算法使模型参数依赖于初始值,从而导致最终的训练模型趋于局部最优的问题,提出结合语音训练数据的分布特点即训练数据的距离参数和密度参数来初始化模型的参数,从而对最终的模型进行改进优化。关键词:语音识别,梅尔倒谱系数,Fisher准则,隐马尔可夫模型,参数初始化I重庆大学硕士学位论文 英文摘要ABSTRACT With the development of

5、 science and technology,speech recognition products haswalked away from the lab, and come into every aspect of peoples daily life. Someproblems in speech recognition has not been completely resolved, especially the studyon the acoustic model. Input data for acoustic model is the characteristic param

6、eters ofspeech, but Mel frequency Cepstrum coefficient can not accurately and completelyrepresent all the useful information in speech signal, especially in Chinese, thus affectsthe accuracy of the acoustic model, At the same time in the acoustic model the problemof local optimization is not be solv

7、ed, thus causes the product performance are difficultto meet the requirements of ideal for use in speech recognition.This paper introduces the research status of feature extraction and acousticmodeling in the speech recognition, then analyses and compares kinds of algorithmsthrough advantages and di

8、sadvantages, Aiming at the problem of the mainstreamalgorithms, new methods are proposed. In the feature extraction, the mixed parameterbased on Fisher ratio is proposed. In the acoustic model training, the paper proposes thenew method of models parameter initialization based on distance and density

9、. Theprimary research includes: In the feature extraction, Aiming at the low identification precision of MFCCparameters in high frequency signals the method of extracting features based onMFCC、IMFCC and MidMFCC, combined with Fisher criterion was adopted. In the acoustic models, the traditional appr

10、oach of parameter initialization ofhidden Markov model can lead to the problem of local optimization, the paper proposesa new approach of models parameter initialization based on characteristics of speechtraining data, thus to optimize the final model.Keywords: speech recognition, Mel Frequency Ceps

11、trum Coefficient , Fisher criterion,hidden Markov model, parameter initializationII重庆大学硕士学位论文 目 录目 录中文摘要 I英文摘要 II1绪论11.1课题研究的目的和意义11.2国内外研究现状11.2.1语音识别中特征提取算法研究现状 21.2.2语音识别中声学模型研究现状 51.3研究内容及组织结构61.3.1研究内容 61.3.2组织结构 71.4本章小结72语音识别基本原理82.1语音发声原理82.2语音识别原理92.3语音信号预处理 102.3.1预加重 102.3.2加窗分帧 112.3.3端点

12、检测 132.4本章小结 203特征参数的提取研究 213.1特征参数 213.1.1线性预测参数 213.1.2线性预测倒谱系数 223.1.3感性预测系数 223.1.4梅尔倒谱系数 233.1.5特征参数比较 253.2基于 FISHER比的混合特征参数 263.2.1 MFCC参数的局限性 263.2.2 IMFCC参数和 MidMFCC参数 273.2.3混合特征参数的提取 293.3仿真实验 31III重庆大学硕士学位论文 目 录3.4本章小结 354声学模型的研究 364.1声学模型 364.1.1动态时间规整 364.1.2人工神经网络模型 374.1.3混合高斯模型 374.

13、1.4隐马尔可夫模型 384.1.5算法比较 414.2连续型隐马尔可夫模型 424.2.1基于密度和距离参数的连续型隐马尔可夫模型的初值估计 434.2.2仿真实验 454.3语音识别仿真实验 484.4本章小结 545总结和展望 555.1论文工作总结 555.2未来工作展望 55致 谢 57参考文献 58录 62附作者在攻读学位期间发表的论文目录 62IV重庆大学硕士学位论文 1 绪论1 绪 论1.1 课题研究的目的和意义在日常的生活中,语言是人们获取信息的途径,也是相互之间进行沟通交流工具。自古以来,人们就希望各种机器能够与人交流,能够听懂人们的语言,而从计算机出来以来,人们的这种希望

14、就愈发迫切,语音识别技术就是实现这样一种功能。这门技术把人类语音信号转换成相对应的文字或指令,显示文字或执行指令1,从而让计算机模拟人类的听觉作用,接受人类的语音同时明白人类的命令2。近些年来,语音识别技术取得了很大的成就,使得语音识别技术产品从实验室走向了市场,走进了人们各个方面,尤其是在工业控制、通信与电子系统、信息处理等领域有着广泛的应用。如今,随着计算机技术的发展,让机器能够更加准确和智能的理解人类的语音成为研究的热点。在语音识别技术中,关键的问题是建立语音识别基元的声学模型。目前对于语音声学模型的有些技术还没有完全解决,导致产品的性能有些还难以达到理想的使用要求。声学模型是在语音的特

15、征参数的基础上建立起来的,因此语音的特征参数包含的有用信息的多少直接决定了声学模型对于语音描述的准确性,如果所提取出的特征参数信息较少,那么最后建立的声学模型也是不完美的。目前应用比较成熟的特征提取技术如梅尔倒谱系数起初都是在英语的基础上进行的研究,因此这些技术在开始研究时考虑的是英语的特点。汉语相对于英语来讲,其信号中的信息更加的丰富,比如存在音调,同时有许许多多的同音字,因此现在在汉语识别中所提取的特征参数不能够准确地、完整地表示语音中的所有有用的信息,都会丢失一些重要的信息,对于最后所建立的声学模型影响很大。在声学模型建立之前,必须对特征参数进行研究,提取出有用信息最多的参数。根据特征参

16、数建立的声学模型,主要有两大类,一种是在时间轴上进行映射规划,将两个特征参数进行失真度的测量;另一种是基于统计知识的模型,这种模型的建立是根据初始模型和训练数据,不断地进行参数的重估优化,直至模型收敛,这种算法不是采用的全局最优的解析解,比较容易陷入局部最优解,而且对于模型的不同初值,最终得到的模型参数差别较大,因此,在语音识别中对于特征参数的提取和模型初始化的研究有着重要的意义。1.2国内外研究现状国外对于语音识别技术的研究开始于上世纪的 50年代。在 1952年的时候,贝尔实验室研究出了第一个语音识别系统,这个系统能够识别 10个英文数字3。1重庆大学硕士学位论文 1 绪论在 70年代,由

17、于将线性预测技术和动态时间规整技术运用到了语音识别当中,使得语音识别取得了突破性的进展,能够对特定的人进行小词汇表和孤立词的识别4。在 80年代末,卡耐基梅隆大学的研究取得了重大突破,研发的 Sphinx系统能进行非特定人、大词汇量的连续语音的识别5。在 90年代,语音识别的产品开始从实验室走向了市场。很多的公司如微软、苹果等都把语音识别产品的研究作为重点,因此使得语音识别系统的被运用到了日常生活的很多领域 6 。在汉语音的识别研究上,我国开展的比较晚。在上世纪的 70到 80年代,我国的研究人员主要在实验室的条件下进行一些汉语的识别研究。在 80年代到 90年代中期,我国在汉语识别方面的研究

18、取得了比较大的进展,主要是由于这一阶段成立了国家863“ 智能计 算机主题” 专家组,从此,我 们找到了基于汉语识别的一条研究之路。在汉语识别研究方面,我们取得重大突破是在上世纪 90年代以后。在这一阶段,我国的研究工作无论是理论还是时间上都取得了重大进展,汉语识别研究也逐渐走向成熟,走出实验室。当前,国内在语音方面做得比较好的是中科院声学所、中科院自动化研究所模式识别重点实验室和清华大学7。1.2.1语音识别中特征提取算法研究现状语音识别8的过程的声学模型在建立之前需要经过语音前端的预处理、特征提取等。在特征提取之前预处理的过程包括预加重、语音分帧以及加窗、端点检测等过程。在声学模型中,最终

19、的训练和识别环节是针对语音的特征参数进行的,因此特征提取在识别过程中作用非常关键,对其研究非常必要。特征提取的目的13 是获得语音中有利于识别的信息,消除干扰的信息,语音信号中不仅包含有大量的语音信息,同时还有个人的特征信息。语音的特征参数应该能够准确地表征原始信号中所包含的有助于区分的所有信息,但是由于目前我们对于语音的发音原理、听觉原理、心理以及语音的社会性等方面的知识没有研究透彻,使得现有的特征参数不能够既完全又准确地表征语音的信息。目前,语音中的特征参数可以分为时域、频域以及倒谱域等几大类。时域参数就是将每帧语音信号在时域上进行降维处理得到来构成一组特征向量。时域参主要有短时能量、短时

20、过零率以及自相关系数等。频域和倒谱域参数是将每帧语音信号变换到频域范围,在频域内进行特征参数的提取或者将频域参数转换到倒谱域中。常用的频域及倒谱域参数包括线性预测系数( Linear Prediction Coefficent,LPC)14-15、线性预测倒谱系数(Linear Prediction Cepstrum Coefficent, LPCC)16-17 、感性预测参数(Perceptual Linear Predictive, PLP)18-19以及梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient, MFCC)20。虽然时域参数具有计算量较小及实现

21、容易的特点,但是由于其对于语音的信息描述是不完整的,因此,在此环节更多的采用频域以及倒谱域的参数。2重庆大学硕士学位论文 1 绪论频域以及倒谱域参数的提取过程主要采用短时傅里叶变换将时域信号转换到频域进行参数的提取,有些特定的场合下采用分数阶傅里叶变换或者是小波变换9-12。梅尔频率倒谱系数是目前在语音的识别系统中被应用的最为广泛的一种特征系数。它是基于人耳的听觉系统的,通过模拟人耳的听觉系统建立模型提取参数,描述语音信号在频域上的能量分布。对于频率不同的声音,人的听觉系统对其感知的能力是有差别的。对于频率处于 l000Hz以下的声音,听觉系统对其感知的能力满足近似的线性关系,但是当频率高于

22、l000Hz的时候,听觉系统对于声音的感知于频率近似满足对数关系21。与 PLC以及 PLCC参数相比22,MFCC 参数强调语音的低频信息,屏蔽了高频部分的噪声干扰,同时没有任何假设前提,各种情况下均可使用。目前,在特征提取中没有一种参数能够表征语音信号的全部有用信息,即使是运用较为成熟的 MFCC参数。在各种参数中,都是对于语音信号在某方面的描述,是一种近似的描述,如常用的 MFCC参数中,模拟的是人的听觉系统,它主要考虑低频的分量,提取出的参数中低频分量占主要部分,并且没有考虑到利用MFCC参数各分量的差异性进行特征的选择,这样参数会丢失一些重要信息。研究人员提出了很多的算法来完善语音的

23、特征参数。在 2007年 Sandipan针对 MFCC 参数注重低频分量的特点,构造了一种新的听觉模型,这种模型对应的域尺度刚好与 Mel域相反,从而得到了一种新的特征参数即逆 Mel倒谱频率系数,这种参数与 MFCC相反,在这种参数中高频分量占到了主要部分,因此对于语音中的高频部分的描述的更加精确 23 ,但是,单独使用这种参数效果很差,更多情况下是结合 MFCC组成混合参数。袁正午、肖旺辉针就是将这两种参数中的滤波器组分布与注重中频能量分布的 MidMFCC参数中的滤波器组分布相结合,组成一组混合的滤波器组,通过这组滤波器进行混合参数的提取24 。石太佳、王晓君等结合线性预测倒谱系数进行

24、了分析,他们将 LPCC进行 Mel尺度变换作为特征向量25,但是这种参数并没有解决 LPCC的缺点。Kohler.Ma等在特征的提取中考虑语音序列的时序信息即帧与帧之间的关联性,提出了位移差分倒谱 SDC特征26 ,而严家明等人在此基础上,采用经验模态分解法首先对语音信号进行去噪增强,然后将位移差分倒谱特征作为连接词识别的特征参数 27 ,这两种方法主要提取了语音信号的时序信息。王宪保等人将仿生理论中同类样本连续的观点应用到 MFCC 的特征提取中,在特征空 间中寻找样本类的最佳覆盖在特征提取中28 。在语音特征提取中假定了每一帧是平稳的,并且对每一帧都采用了同一个窗函数,但如果帧内的信号刚

25、好快速变化时,采用这种方法就将丢失关键3重庆大学硕士学位论文 1 绪论的信息,针对这种情况,吴亮春、潘世永等人将小波包变换引入到特征提取中代替傅里叶变换对语音的处理 29 。俸云等人采用线性预测方法提取残差相位,结合MFCC参数进 行语音的识别 30 。图 1.1第 10帧语音的频谱图Fig1.1 Spectrum of 10th frame speech图 1.2第 40帧语音的频谱图Fig1.2 Spectrum of 40th frame speech图 1.3第 90帧语音的频谱图Fig1.3 Spectrum of 90th frame speech这些 MFCC改 进算法有缺陷,

26、对同一词语的不同语音帧进行频谱分析。如图1.1、1.2、1.3所示,对于不同的语音帧,能量的分布是不同的,第 10帧的能量集中于中频部分,而第 90帧的能量集中于低频部分,常用的 Mel尺度对于每一帧都采用形同的尺度变换,即低频能量进行加强,而对于中高频能量进行了减弱,这样对于能量集中于中高频部分的语音帧就容易丢失重要的特征信息,降低语音识别的准确性。而且在不同参数进行结合时,只是将参数直接进行了叠加,这样会4重庆大学硕士学位论文 1 绪论产生问题。首先,增加了计算量,其次,没有考虑各类参数中每个分量对于最终识别结果的影响,可能会引入一些冗余的信息,从而降低识别的精度。因此需要评价各个分量对于

27、识别的贡献。目前评价特征参数中各维分量对于识别的影响一般有两种方法,通过各个分量的 Fisher比得到各分量的区分能量31,或者通过减去特征分量来判断该分量对于识别结果的贡献32。甄斌等通过去掉 MFCC参数的某一维分量对于识别结果的影响来判断该维分量在 MFCC中的作用及贡献33 ,但是通过增减特征分量的方法计算量较大,同时受环境及语音识别的影响较大。张芸等人应用 Fisher准则对 LPCC和 MFCC两种参数中各维分量进行评价,选取对识别结果影响最大的分量组成新的特征参数,并将这种应用于说话人的识别 34 。针对主流参数 MFCC ,这 些改进的算法都是将 MFCC参数结合其它的一些参数

28、组成混合参数,但是并没有解决注重低频能量分布,忽视中高频能量分布的问题,并且在有些算法中没有对特征矢量各维进行评价选择组合,因此,在这两个方面,本文进行了研究。1.2.2语音识别中声学模型研究现状语音的模式识别主要包括模板训练和测试语音匹配识别两个环节。在这个环节中用到的训练及识别技术分为两类:一类是基于解析法的,比较测试语音的特征矢量与参考模板之间的距离失真测度,通过失真测度来判断结果,如矢量量化技术35、动态时间规整技术36 等;另一类是基于统计知识的,主要有混合高斯模型37、神经网络模型38 以及隐马尔可夫模型39 等。在这几类模型中,使用较多的是动态时间规整算法(Dynamic Tim

29、e Warping,DTW)以及隐马尔科夫模型( Hidden Markov Models, HMM)。对于矢量量化技术更多时候是在隐马尔可夫模型中采用。高斯混合模型可以看做是隐马尔可夫模型的简化模型,前者只能描述语音信息的静态特征,而后在同时表示是语音的动态时序信息。神经网络模型在实际应用当中,训练与识别的时间较长,并且训练所需的语音数据量非常大,因此,神经网络模型在语音识别的应用中有局限性。隐马尔科夫模型主要是用来可以解决 3个问题40:(1)根据观察序列和参考模型,计算由此参考模型产生观察序列的概率;(2)根据观察序列和参考模型,确定一个最佳的状态序列,对应于观察序列;(3)根据观察序列

30、,不断优化初始模型的参数,使其产生该观察序列的概率值最大。在这三个问题当中,问题(1)和(2)是语音的识别问题,可以通过解析算法求出结果。问题( 3)是参考模型的训练问题,通过语音特征矢量来得到声学模型,因此,这个问题也是 HMM模型研究的关键问题。对于问题( 3),现在还没有一种解析的算法可以得到完美的模型,只能是通过不断地重估参数,直至训练模型的输出概率收敛来进行训练,因此,在隐马尔可夫中,主要的问题都集中在问题(3)上面。5重庆大学硕士学位论文 1 绪论目前优化模型参数的方法主要有基于最大似然估计的 Baum-Welch算法、基于最大互信息准则以及最小差别信息准则的方法 41,而其中常用

31、的是 Baum-Welch算法。Baum-Welch算法实质 上是一种采用最大期望 值的算法,这种算法可以保证没一次的重估的模型的输出概率是增加的,但是这种算法对于初始的参数依赖性很大,非常容易陷入局部最优的问题,而且对于不同的初始参数,最终的输出概率并不是惟一的,因此传统的 Baum-Welch 算法并不能准确地完全地 对训练的语音观察序列进行声学模型的建立。在隐马尔可夫模型方面,如何训练得到一个完美的声学模型,一直是研究的难点。近些年来,为了解决 Baum-Welch 算法依赖于初始模型参数可能 导致最终的训练模型陷入到局部最优的问题,研究人员提出了各种各样的解决思路及算法。这些算法主要针

32、对两个方面:一个是在算法的训练过程中,结合其它的算法,对每次重估得到的模型参数进行智能优化处理,这些算法一般具有全局最优的优点,如遗传算法43、蚁群算法、粒子群算法42 等;另一个是在模型初始化阶段,进行参数优化,尽量选择较为合适的模型初始化参数。杨笔峰、张英杰结合人工智能算法提出了一种改进的 BW训练算法,对Baum-Welch算法训练的模板 进行基因克隆选择算法 处理44。为了解决 HMM模型依赖初值的问题,同时能够以更大概率得到全局最优解,研究人员提出了一种两阶段混合的 DHMM参数估计的方法,第一个阶段是初始化的选取,将训练数据的特征序列通过遗传算法的优化来得到初始值的最优解,第二个阶

33、段是 Baum-Welch训练,将经过遗传算法训练的模型参数作为 Baum-Welch训练的初始参数45 。虽然结合智能算法以后,相比于传统的 Baum-Welch 训练 算法,最终的训练效果有所改善,但是由于在这些智能算法中有些关键参数的选取会影响到算法的性能,同时,结合这些算法之后,每次迭代结束都要进行优化,导致训练过程的计算量非常大,训练时间较长,而在实际的训练过程中,需要建立的参考模型比较多,因此希望训练算法迭代次数较少,收敛速度较快,计算量较小。在模型的初始化阶段,对模型初始参数进行优化选取,不仅计算量小,而且容易实现,因此,相比于上述的优化过程,这种思路更为简单。在连续型隐马尔可夫

34、模型初始化时的初值选择上,提出了基于密度的初始化聚类算法 46 以及基于距离聚类的初始化算法 47,但是这两类算法中各有不足。到目前为止,在 HMM的初值及参数优化问题上,还没有完美的解决方法,本文考虑采用语音训练数据的距离参数和密度参数进行连续性隐马尔可夫模型的初始化。1.3研究内容及组织结构1.3.1研究内容6重庆大学硕士学位论文 1 绪论论文介绍了主要的声学模型及特征参数,同时分析了连续型隐马尔可夫模型(Continuous Hidden Markov Model,CHMM)中所存在的问题。在特征参数的提取中,梅尔倒谱系数是常用的一种特征参数,通过模拟人耳的听觉特性来提取特征,但是其主要针对低频部分的频率能量的描述忽略了部分有用的信息,针对这一点,论文提出了基于 Fisher比的混合特征参数,在原梅尔倒谱系数的基础上,细化中频和高频部分的能量分布,提出了这种混合特征参数。在声学模型训练环节,由于现有的连续型隐马尔可夫模型参数重估算法会导致参数趋于局部最优的问题,提出在模型参数的初始化阶段,根据语音的训练数据进行模型的初始化,相比与原

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报