英语作为第二语言的多媒体语音数据库设计制作及初步测试.doc-道客多多

资源描述

1、贵州大学硕士学位论文英语作为第二语言的多媒体语音数据库设计制作及初步测试姓名：苏意玲申请学位级别：硕士专业：计算机应用技术指导教师：李坚石;韦元军20070501贵州大学硕士学位论文来，计算机语音识别的应用有了长足的进展，基于英语的特殊地位，世界上对于英语作为第一语言的语音数据库的设计和制作已经很多。但由于英语的日益普及，以英语作为第二语言的人们越来越多，因此建立一个以英语作为第二语言的语音数据库是很有必要的。不同的国家，有不同的语言

2、，其发音都有各自的特点，从而影响了作为第二语言的英语发音也出现了不同的特色。我们这里主要考虑在中国地区，设计与制作以英语作为第二语言本文所做工作及创新有以下：杂镆羰菘饨辛松杓啤谱骷把盗纺凸蹋笛椴馐参数取前面实验的结英语作为第二语言的多媒体语音数据库设计制作及识别测试璫甌本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究所取得的成果。除文中已经注明引

3、用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究在做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律责任由本人承担。论文作者签名：墨妻日关于学位论文使用授权的声明论文作者签名：盅盔逾导师签名：童竺垒：贵州大学硕士学位论文论。人们对计算机语音的研究主要有以下几个方面；孤立词莲续语者孤立词连续语占孤象词很碓较堆很堆役壤极壤连续

4、语普耀词连续语青英语作为第二语言的多媒体语音数据库设计制作及识别测试语音识别技术的研究历程语音识别的研究可以追溯到二十世纪五十年代初，在五十年代，实验、贵州大学硕士学位论文有腖实验室，芯吭海珺笛槭业取捎谟辛薉计划，我国在年代末就开始了语音技术的研究，但在很长一段时间内，都处于缓慢发展的阶段，直到八十年代后期，随着计算机应用技术在我国的逐渐普及和数字信号处理技术的进

5、一步发展，国内许多单位纷纷投入到这项研究工作中去，其中有中科院声学所，自动化所，清华大学，四川大学和西北工业大学等科研机构和高等院校，大多数研究者致力于语音识别的基础理论研究工作、模型及算法的研究和改进。但由于起步晚、基础薄弱，计算机水平不发达，导致在整个八十年代，我国在语音识别研究方面并没有形成自己的特色，更没有取得显著的成果和开发出大型性能优良的实验系统。但进入九十年

6、代后，我国语音识别研究的步伐就逐渐紧追国际先进水平了，在“八五 ” 、“九五 ”国家科技的基础研究方面也取得了一系列成果跖舻英语作为第二语言的多媒体语音数据库设计制作及识别测试在搜集的语音数据库上建立模型，用测试的语音与之匹配，如果模型比较匹配测试语音，则识别率会比较高，我们可以称该模型是好的模型，该语音数据库是个比较成功的数据库；反之模型与测试的语音不匹配，识

7、别率将大大降低，显然这个模型就不是好的模型，这个语音数据库也是一个失败的数据库。显然，某种语言的语音数据库的针对性很强，建立在某种语言的语音数据库的模型只能测试该种语言，为了达到较高的识别率，即使是同种语言，其语音数据库也贵州大学硕士学位论文本文所做工作及章节安排英语作为第二语言的多媒体语音数据库设计制作及识别测试本章中，我们还探讨了，当模型状态数为多少时，

8、构建的识别系统性能最佳。第五章首先介绍了本文语音数据库的设计及收集过程芗 4旱。包括如何对待收集的语音数据库的整体规划，并介绍确定的录音的内容及收集的文件存放命名方法；然后简单介绍了构建的低常辛瞬问特征参数数据测试：第六章是对整个论文的总结，并提出了对继续研究的展望。贵州大学硕士学位论文认证的技术。说话人识别和语音识别的区别在于，说话人识别不注重包含在语音

9、信号中的文字符号以及语义内容信息，而是着眼于包含在语音信号中的个人特征，提取说话人的这些个人信息，以达到识别说话人的目的。说话人辨认有着深刻的技术背景，人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官舌、牙齿、喉头、肺、鼻腔，在尺寸和形态方面，每个人的差异很大，所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相

10、对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。说话人辨认的基本原理是通过分析人的发声和听觉，为每一个人构造一个独一无二的数学模型。然后再由计算机对模型和实际输入的语音进行精确匹配，

11、根据匹配结果辨认出说话人是谁。该原理同说话入的生理特性和行为特性密切相关。 “人 ” 的生物特性既存在于声谱表面瓷捞匦，也存在于声音的来源或数个不连续的声音片段中。从人的这些特性中可以提取出有效的音频特征，进行数学建模，并将与之相关的资料存进数据库。服务器再根据输入的音频特征在数据库里进行检索，从而进行精确匹配。说话人确认一个所说的，是“多选一 ” 问题；而后者用

12、以确认某段语音是否是指定的某个人所说的，是。一对一判别 ”问题。不同的任务和应用会使用不同的说话人识别技术，如缩小刑侦范围时可能需要辨认技术，丽银行交易时则需要确认技术。不管是辨认还是确认，都需要先对说话人的声纹进行建模，这就是所谓的 “训练” 或 “学习 ” 过程。关键词检出，误警率之间达到很好的平衡。贵州大学硕士学位论文人是当今世界上最准确的语言辨别系统。只需要

13、听数秒钟的语音，人就能够对自己是否了解该语言的问题做出判断。对于一种不熟悉的语言，也常常能够根据与他们所熟悉的语言的近似性做出主观判断。各种语言都有特征化的声音模式。人们将它们主观地描述为语调、节奏、喉音和鼻音等，各种语言之间的差异在于用以产生词的音位学单元镆羯舻囊恢址掷的数量和种类，以语言辨识在单一语言的口语语言系统中，用于确定语音信号所包含的内容，一般是以因素

14、识别与词识别和句子识别相配合的方式来实现的。这要求研究者萃取和利用较小时段的语音信息，例如帧、音素、音节、予词单元等来决定所讲语音的内容。与此相比，在与文本无关的语音识别系统中，仅利用音素、音节甚至子词单元，在不同的语言中是相同的，语言识别系统需要把句子作为一个整体来考察，以便决定一种语言区别于其他语言的唯一的。声学签名 ”。语音识别发展到一定阶段，世界各国都加

15、快了语音识别应用系统的研究开发，通常连续语音是含有较完整语法信息的连续语句，最接近于人的自然讲话方式，但从非连续语音到连续语音的研究面临着很多完全不同的技术难点，非连续语音的识别是一些孤立的声波片段，连续语音则面临着如何切分声波的问题。诸如此类的新问题使连续语音识别率的提高比非连续语音更加困难。因此非特定入、大词汇量连续语音识别技术就成为语音识别领域的前沿课

16、题、重中之重。在语言学层次，也以真实世界大规模语料库为基础，说话人识别的主要方法最常使用的是隐马尔可夫模型方法，它是一种基于转移概率和传输概语音识别系统的基本结构贵州大学硕士学位论文鮦语音采样根据裳恚绻庑藕诺钠灯状硎怯邢薜例如不包含英语作为第二语言的多媒体语音数据库设计制作及识别测试咝哉穹对数振幅谱譬咝哉穹对数振幅谱次是要用高通滤波器抑制的电源干扰。从总的效果来看，

17、预滤波处理相当于使用一个带通滤波器对语音进行处理。进行预滤波处理后，再采用合适的采样频率进行采样。目前，设计较好的声卡通常都带有带通滤波器。语音信号采集只是语音信号处理的开始，在此基础上，要对所采集的语音信号进行分析处理，从中抽取语音识别所需的信号特征。由于语音信号的平均功率谱受声门激励和口鼻辐射的影响，语音信号从嘴唇辐射后有疧镀党的衰减。因此，在对语音信号进行分析之前，一般要对语

18、音信号加以提升，提升的方法有两种：其一是用模拟电路实现；其二是用数字电路实现。采用数字电路实现疧预加重的数字滤波器的形式为：施以某种运算，其一般式为：输入语音信号序列。蜴是所有各段经过处理后得到的一个时间序列。用得最多的三种窗函数是矩形窗、哈明窗眎耗，其定义分别为：畁人一八八短时平均能量可用于：因此在实际使用时需加以处理，例如取对数等，以便将数值限制在一定的

19、范围发生了过零，过零率磊是指单位时间内信号由正变负、由负变正的总次数，短卜一其中掣冈是三句话的平均过零率降：除非是在信噪比极高的声学环境中，从背景噪声中鉴别语音的问题不是简单的事情。在背景噪声较小时用短时能量鉴别端点较为有效，而在背景噪声较大使用短时平均过零率鉴别端点较为有效。但是研究表明，在以某些音为开头或结尾时，只用其中一个参量来识别语音的起点和

20、终点是有困难的，必须同时使用这两个参数。在比较安静的环境下，仅依靠短时能量与过零率这两个特征就可以较好地完成语音信号的起止点判断和信号的浊清音判决芯。但需要指出的是，这两个特征比较容易受外界噪声的干扰，鲁棒性较差。当语音信号的信噪比较低时，信号的短时能量和过零率将受到很大的影响。目前有专门的一个方向研究噪声环境下的语音端点检测问题。贵州大学硕士学位论文语音短时能量大多数情况下都

21、在此门限之上。这样可以进行一次粗判：语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外碅沃然后根据背景噪声的平均能量确定一个较低的门限比，并从阃螅覤点往右搜索，分别找到短时能量包络第一次与门限相交的两个点虳，于是段就是用双门限方法根据短时能量所判定的语音段。以上只是完成了第一级法，以保证语音识别的实时实现。并设线性预测倒谱系数在获得线性预测系数后，可以用一个

22、递推公式计算得出。行卷积，最后对各个滤波器的输出构成的向量进行离散余弦反变换，取前蓝当甑蛊紫凳猚贵州大学硕士学位论文计算美尔坐标上的能量谱经过此滤波器的输出：式中， 5趇帧语音信号， 5趍个倒谱系数，琾珺为常英语作为第二语言的多媒体语音数据库设计制作及识别测试鱁将动态信息和静态信息结合得到识别效果最英语作为第二语言的多媒体语音数据库设计制作及识别测试语音识别常用算法有

23、基于神经网络的训练和识别算法、基于动态时间规整匹配的侗鹚惴突谕臣频囊矶煞蚰训练和识别算法。无论采用什么模型和算法，都有一个模型蚰的训练问题。因为从本质上讲，语音识别过程就是一个模板匹配的过程，模板训练的好坏直接关系到语音识别系统识别率的高低。为了得到一个好的模板，往往需要有大量的原始语音数据来训练这个语音模型，特别是对于非特定人的语音识别系统来说，这

24、一点就显得更为重要。因此，在开始进行语音识别研究之前，首先要建立起一个语音数据库，数据库包括具有不同性别、年龄、口音的说话人的声音，并且必须要有代表性，能均衡地反映实际使用情况。否则，用这种语音数据库训练出来的语音模型蚰就很难得到满意的识别效果。模板训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模板参数。琗，贵州大学硕士学位论文英语作为第二语言的多媒体语音数据库设计制作及识别测试是必不可少的。琽的方法，通过找出点检测的影响，可使语音分段更加简单如设：参考模板特征矢量序列为口畁餩。，埘伽矿籢定条件的时间规整函数描述输入模板与参考模板的时间对应关系，求解两动态规划是一种最优化算法，它把一个锥尉霾吖袒狽个单阶段的中，规整函数满足一定的约束条件，它们是边界条件：，矶煞蚰最开始出现在等人的

展开阅读全文