1、兰 州 理 工 大 学 毕 业 论 文LANZHOU UNIVERSITY OF TECHNOLOGY毕 业 论 文题 目 : 基于倒谱的大学生语音识别算法研究 College Students Speech Recognition Algorithm based on Cepstrum摘要语音是人类最重要的交流工具,随着电子计算机和人工智能机器的广泛应用,人们发现人和机器之间最好的通信方式是语言通信,而语音是语言的声学表现形式。要使机器听的懂人话,就要对语音信号进行处理。随着信息技术的不断发展,尤其是网络技术的日益普及和完善,语音信号处理技术正发挥着越来越重要的作用。为了寻找良好性能的特征、
2、提取重要参数以提高识别系统性能,各种科学的算法应运而生。语音识别的关键技术是提取出语音特征,语音特征有很多,倒谱分析就是其中之一。倒谱法作为信号处理的重要的方法,能够得到比较好的识别性能。本文主要介绍了语音识别技术。基本实现思想是将输入的随机语音信号通过线性变换系统处理为加性信号,用基于 Mel频率的倒谱系数(MFCC)以及一些语音信号的固有特征进行倒谱分析。接下来通过对语音倒谱在各个方面的应用进行 MATLAB 编程仿真,得到语音基音检测和共振峰检测的实验仿真结果。关键词:倒谱;语音识别;共振峰检测;基音检测;兰 州 理 工 大 学 毕 业 论 文AbstractVoice is one o
3、f the most important human communication tools. With the widely application of electronic computers and artificially intellective machine, it was discovered that language communication is the best way to communicate between man and machine and the voice was the reflection of the language. If we want
4、ed us understood by the machines, it is necessary to deal with the signal. With the continuous development of IT, especially the popularity of network and perfect system, voice signal processing technology plays an increasingly important role. In order to find a good performance characteristics and
5、extract important parameters to improve the performance of the recognition system, a variety of scientific algorithms have been emerged.The key technology of voice recognition is extracting voice features. While there are many voice features, cep-strum analyses is one of them. The cep-strum, as one
6、of the important signal processing methods, can get better recognition performance. This paper mainly introduce the voice recognition technology. The basic idea is to casually input voice signal and transform the signal by using additive signal to linear transformation, and use the methods based on
7、Mel(MFCC) frequency as well as some of the speech signal to cep-strum analyze. And then by the usage of the voice spectrum of applications in all aspects programs MATLAB simulation, it can get the simulation results of detect voice pitch and formant detection. Keywords: Cepstrum;Voice recognition ;R
8、esonance peak detection;Pitch detection;兰 州 理 工 大 学 毕 业 论 文目录第 1 章 绪论 .11.1 研究背景及意义 .11.2 语音信号研究现状 .11.3 主要研究内容 .3第 2 章 语音识别技术基本理论 .52.1 语音信号的数字化与预处理 .52.2 语音识别技术模型 .62.3 语音识别技术原理 .72.4 语音识别系统分类 .82.5 语音识别基本方法 .82.6 语音识别系统基本结构 .10第 3 章 倒谱系数分析原理 .133.1 倒谱分析的优点和缺点 .133.2 复倒谱和倒谱的定义 .133.3 复倒谱与倒谱的关系 .14
9、3.4 MFCC .153.4.1 MFCC 介绍 .153.4.2 MFCC 的原理 .153.4.3 Mel 频率倒谱系数提取过程 .163.4.4 MFCC 算法流程 .173.4.5 MATLAB 中的设计与实现 .17第 4 章 语音倒谱的应用 .194.1 倒谱的 MATLAB 实现 .194.2 倒谱在同态信号处理系统的应用 .194.3 倒谱在基音检测方面的应用 .214.4 倒谱在共振峰检测方面的应用 .234.4.1 共振峰的概念 .244.4.2 基于倒谱的共振峰的算法 .24第 5 章 倒谱法提取基音频率和共振峰 .255.1 倒谱法提取基音频率 .25兰 州 理 工
10、大 学 毕 业 论 文5.1.1 提取基音的方法 .255.1.2 倒谱分析算法的原理 .255.1.3 MATLAB 中的设计与实现 .265.2 倒谱法提取共振峰 .275.2.1 提取共振峰的方法 .275.2.2 倒谱法的原理 .275.2.3 MATLAB 中的设计与实现 .27第 6 章 结论与展望 .306.1 主要工作总结 .306.2 后续工作及展望 .30参考文献 .31附录 .32I 相关程序 .32II 外文资料原文 .38III 外文资料翻译 .44致谢 .55兰 州 理 工 大 学 毕 业 论 文1第 1 章 绪论1.1 研究背景及意义语音是语言的声学表现,是人类交
11、流信息最自然、最有效、最方便的手段。人类开始进入信息化时代, 用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储和获取语言信息,这对于促进社会的发展具有十分重要的意义。语音作为当前通讯系统中最自然的通信媒介,随着计算机和语音处理技术的发展,不同语种之间的语音一语音翻译将成为语音研究的热点。随着我国改革开放和对外合作的不断深化,商务往来、文化交流、跨国旅游等活动日益频繁, 越来越多的人需要学习一门外语。学习外语存在的主要问题是发音不准确, 传统的外语教学方法有着种种不足之处。例如,课堂教学通常受时间、地点以及教师教学水平的限制 ;广播电视教学和录音录像教学等教学手段不够灵活,无法及时
12、地分析学习者存在的问题 ,因此也就不能及时地、有针对性地反馈指导意见。利用计算机来帮助外语教学是帮助提高外语水平的重要方法之一。在非母语的语言学习中,以计算机辅助使用者进行非母语学习 (Computer-AssistedLanguageLeaming,CALL)己受到相当重视, 各方也纷纷投入相关的研究。语音识别技术,也称为自动语音识别,其是为了将人类的语音中的词汇内容转换为计算机可读的输入,例如二进制编码、按键或者字符序列。与说话人确认及说话人识别不同,前者尝试识别或确认发出语音的说话人而非其中的词汇内容。语音识别的关键是提取出语音特征,而语音特征有很多,倒谱系数分析是其中一种。在语音信号处
13、理中可以常用倒谱域来提取语音的共振峰与基音频率,用于语音识别。倒谱系数是一种非常有效表征语音特征的参数矢量, 倒谱具有解卷的特性, 它能将语音信号的声门激励信息和声道响应信息分离开,因此倒谱是说话人识别和语音识别中最常用的特征参数之一。1.2 语音信号研究现状声学是物理学的一个分支学科,而语言声学又是声学的一个分支学科。它主要的研究方向是人的发声器官机理,发声器官的类比线路和数学模型,听觉器官的特性(如听阈、掩蔽、临界带宽、听力损失等) ,听觉器官的数学模型,语音信号的物理特性(如频谱特性、声调特性、相关特性、概率分布等) ,语音的清晰度和可懂度等。当今通信和广播的发展非常迅速,兰 州 理 工
14、 大 学 毕 业 论 文2语言广播和语言通信仍然是最重要的部分,而语言声学则是这些技术科学的基础。语言声学的发展和电子学以及计算机科学有着非常密切的关系。 在它发展的过程中,有过几次飞跃:第一次飞跃是 1907 年电子管的发明和 1920 年无线电广播的出现。 因为有了电子管放大器,很微弱的声音也可以放大,而且可以定量测量。从而使电声学和语言声学的一些研究成果,扩展到通信和广播部门。第二次飞跃应该是 20 世纪 70 年代初,由于电子计算机和数字信号处理的发展,人们发现:声音信号特别是语音信号,可以通过模数转换器(A /D)采样和量化,它们转换为数字信号后,能够送进计算机。这样就可以用数字计算
15、方法,对语音信号进行处理和加工。例如频谱分析可以用傅里叶变换或快速傅里叶变换( FFT)实现,数字滤波器可以用差分方程实现。在这个基础上,逐渐形成了一门新学科语音信号处理。它的发展很快,在通信、自动控制等领域,解决了很多用传统方法难以解决的问题。在信息科学中占有很重要的地位,其中语音识别的研究也开始了飞速的发展。语音识别的研究工作可以追溯到 20 世纪 50 年代 AT&T 贝尔实验室的 Audry 系统,它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在 60 年代末 70 年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件
16、和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和 DTW 技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。随着应用领域的扩大,小词汇表,特定人,孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续的语音中,各个音素、音节以及词之间没有明显的边界,各个发音单位存在受上下文强烈影
17、响的协同发音(Co-articulation )现象;第三,在非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声和其他干扰。因此原有的模板匹配方法已不再适用。20 世纪 90 年代前期,许多著名的大公司如苹果、IBM 、NTT 和 AT&T 都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在 20 世纪 90 年代中后期实验室研究中得到了不断提高。比较有代表性的系统如下:IBM 公司推出的 ViaVoice 和 DragonS
18、ystem 公司的 NaturallySpeaking,Nuance 公司的NuanceVoicePlatform 语音平台,Microsoft 的 Whisper,Sun 的 VoiceTone 等。兰 州 理 工 大 学 毕 业 论 文3其中 IBM 公司于 1997 年开发出汉语 ViaVoice 语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统 ViaVoice98。它带有一个 32000 词的基本词汇表,可以扩展到 65000 词,还包括办公常用词条,具有“纠错机制” ,其平均识别率可以达到 95%。该系统对新闻语音识别具有较高的精确度,是目前最具有代
19、表性的汉语连续语音。我国语音识别研究工作起步于五十年代初,但近年来发展很快。研究成果也从实验室逐步走向实用。从 1987 年开始执行国家 863 计划后,国家计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上和国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、北京大学、清华大学、哈尔滨工业大学、中国科技大学、上海交通大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系和中科院自动化研究所的模式识别国家重点实验室。清华大学电子工程系语音技术
20、与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到 94.8%(不定长数字串)和 96.8%(定长数字串) 。在有 5%拒识率情况下,系统识别率可以达到 96.9%(不定长数字串)和 98.7%(定长数字串) ,这是目前国际最好的识别结果之一,其性能已经达到实用水平。研发的五千词语音库对非特定人连续语音识别系统的识别率达到 98.73%;并且可以识别四川话和普通话两种语言,达到实用要求。中科院自动化所及其所属模式科技公司 2002 年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品PattekASR,结束了中文语音识别产品自 1998 年以来一直
21、由国外公司垄断的历史。1.3 主要研究内容本文研究的是语音信号的倒谱分析,首先第一章的绪论部分,介绍了本文的研究目的与意义、语音信号的研究现状和本文的研究内容。第二章介绍了语音识别技术基本理论。简要对其进行了分类研究,详细说明了语音信号的数字化和预处理、语音识别技术的基本原理、技术模型、以及处理所使用的基本方法。第三章详细叙述了倒谱的定义基本原理以及计算方法,优点和缺点。将倒谱化分为实倒谱和复倒谱,并对二者之间的关系进行区分,由此奠定了倒谱分析研究的基础。然后利用到谱进行了 MFCC 参数的提取。接着第四章介绍了倒谱系数分析在语音特征提取中的应用,包括基音检测以及共振峰的兰 州 理 工 大 学
22、 毕 业 论 文4提取。最后第五章具体研究了倒谱在语音信号处理中的实现方法,主要是语音信号识别的参数提取。首先通过输入一段语音,并将其导入到 MATLAB 程序中进行语音的处理,完成语音在 MATLAB 中的倒谱实现。接着介绍倒谱在同态信号处理系统中的作用及同态信号处理系统的工作原理,然后是语音信号的主要应用,也是语音倒谱分析的重点内容,包括基音检测和共振峰检测两个方面,作为语音信号的重要参数,分别进行了详细的设计,同时为了清晰的描述程序的编写过程,对设计思路方法都进行了完备的阐述,并依据设计的算法画出了逻辑流程图,从而在 MATLAB 中完成程序的编写,最后通过对仿真结果进行了理论的分析,得
23、出了语音的参数量值,完成了对语音信号倒谱分析的内容。兰 州 理 工 大 学 毕 业 论 文5第 2 章 语音识别技术基本理论语音识别技术,也被称为自动语音识别 Automatic Speech Recognition,(ASR) 2,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别和说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别是模式识别的一种,它是让机器通过识别和处理过程将语音信号转变成相应的模型参数。一个完整的语音识别系统主要由两部分组成:语音特征提取、声学模型和模式匹配(即识别算法)。常用的语音特
24、征参数有 LPCC 和 MFCC。LPCC 参数是根据声管模型建立的特征参数,主要反映声道响应。MFCC 参数是基于人的听觉特性利用人听觉的临界带效应,在 Mel 标度频率域提取出来的倒谱特征参数。标准的 MFCC 和 LPCC 参数只反映了语音的静态特性,而它们的差分倒谱参数可以反映语音的动态变化。2.1 语音信号的数字化与预处理对模拟语音信号进行量化和采样,获得数字化的语音信号;然后将含噪的语音信号通过去噪处理,得到干净的语音信号后并通过预加重技术滤除低频干扰,尤其是 50Hz 到 60Hz之间的工频干扰,提升语音信号的高频部分,而且它还具有消除直流漂移、抑制随机噪声和提升清音部分能量的作
25、用。降噪后,通过对语音信号的短时能量和短时过零率检测可以剔除掉静默帧、白噪声帧和清音帧,最后保留对求取基音、LPCC、MFCC 等特征参数非常有用的语音信号。预处理:假设输入的音频信号为 ,预处理过程如下。)(nx1)归一化处理:归一化处理的目的是消除不同样本声音大小的差异,将样本幅度值限定在-1,+1。2)预加重:预加重一般是用具有 6db/倍频程的一阶数字滤波器来实现,如式(21)所示:(2-1)-1Z=H(z)其中 为常数,一般取 0.97。3)对音频信号进行重叠分帧:为避免信号间断一般取 256 点为一帧,帧间重叠为 128 点。语音信号的数字化一般包括放大及增益控制、预滤波(主要是反混叠滤波) 、A/D 转换(包含采样过程)及编码(PCM 编码) 。预处理一般包括预处理、加窗和分帧等。有时在分