语音信号处理的未来发展和应用前景——大作业程盛强.docx-道客多多

资源描述

1、语音信号处理的未来发展和应用前景程盛强 071430115【摘要】：随着电子计算机和人工智能机器的广泛应用，人们发现，人和机器之间最好的通信方式是语言通信，而语音是语言的声学表现形式，要机器听懂人讲话，并能说出话来，需要做很多工作，这就是科学工作者研究了几十年的语音识别和语音合成技术。【关键字】：语音信号处理，应用，发展，语音识别，语音压缩正文当今世界正处于工业时代向信息时代的飞速转变时刻,语音在人类社会中起了非常重要的作用。随着电子购物、因特网络的普及、多媒体通信及其应用的蓬勃发展,语音始终是人类互相交流、互相通信的最主要、方便、快捷的信息载体。语音在人类社会中起了非常重要的作用。在现代信

2、息社会中，小至人们的日常生活，大到国家大事、世界新闻、社会舆论和各种重要会议，都离不开语言和文字。随着移动通信的迅猛发展，人们可以随时随地通过电话交流，其中语音压缩编码技术发挥着重要的作用。社会的不断的进步与发展让各种各样的机器更多的参与了人类的生产活动和社会活动，因此改善人和机器之间是人对机器的操纵更加便利就显得越来越重要。随着电子计算机和人工智能机器的广泛应用，人们发现，人和机器之间最好的通信方式是语言通信，而语音是语言的声学表现形式，要机器听懂人讲话，并能说出话来，需要做很多工作，这就是科学工作者研究了几十年的语音识别和语音合成技术。上述这些应用领域构成了语音信号处理技术的主要研究内容。

3、近年来，普通电话、移动电话和互联网已经普及到家庭。在这些先进的工具中，语音信号处理中的语音编码和语音合成就有很大贡献。再进一步，可以预料到的口呼打字机(又称听写机，将语音转换为文字)、语音翻译机等，已经不是梦想而是提到日程上的研究工作了。语音信号处理是语音学与数字信号处理技术相结合的交叉学科，它和认知科学、心理学、语言学、计算机科学、模式识别和人工智能等学科联系紧密。语音信号处理技术的发展依赖于这些学科的发展，而语音信号处理技术的进步也会促进这些学科的进步。语音信号处理是一门新兴的边缘学科，它是语音学和数字信号处理两个学科相结合的产物。它和认知学、心理学、语言学、计算机科学、模式识别和人工智能

4、等学科有着紧密的联系。语音信号处理的发展依赖于这些学科的发展，而语音信号处理技术的进步也会促进这些领域的进步。语音信号处理的目的就是要得到某些语音特征参数以便高效地传输或储存；或者是通过某种处理运算以达到某种用途的要求，例如人工合成语音、辨识出讲话者、识别出讲话的内容等。20 世纪 60 年代中期形成的一系列数字信号处理方法和算法, 如数字滤波器、快速傅里叶变换(FFT)是语音数字信号处理的理论和技术基础。而 70 年代初期产生的线性预测编码(LPC)算法, 为语音信号的数字处理提供了一个强有力的工具。语音信号的编码和压缩是语音信号处理的主要内容。语音信号处理在通信、语音识别与合成、自然语言

5、理解、多媒体数据库以及互联网等多个领域有广泛的应用, 同时它对于理解音频类等一般的声音媒体的特点也有很大的帮助。对于移动通信来说, 最多的信息是语音信号, 语音编码的技术在数字移动通信中具有相当关键的作用, 高质量低速率的语音编码技术是数字移动网的永远的追求。所谓语音编码是信源编码, 它是将模拟语音信号变成数字信号以便在信道中传输。除了通信带宽的要求外, 计算机存储容量的限制也要求对语音信号进行压缩, 以满足海量数据情况下进行实时或准实时计算机处理的目的。语音信号处理的关键技术语音信号处理的理论基础就是一般的数字信号处理理论, 它的主要研究内容是语音编码和语音压缩技术。考虑到人对听觉媒体的感应

6、特点, 研究语音信号处理必须与声音心理学联系起来。因此这里我们把声音心理学也列为语音信号处理的关键技术之一。 (1)声音心理学声音的物理属性和心理属性既有联系也有区别。声音有两个最明显的量纲, 即响度和音调, 其它还有音色、谐和、不谐和和乐音等等。物理属性主要有强度和频率。声音的正弦波的强度增加, 声的响度也增加 ; 频率增加, 音调则增高。但这些关系不是线性的, 且是耦合的, 如频率的变化既影响响度也影响音调。其数量上的关系可以用等响曲线等来描述。但更精确。关系复杂, 难以建立量化模型。如即使想从客观上给出声音失真度的度量都很困难。人的大脑处理听觉信息还有一些特性,产生了一些客观存在的效应

7、 , 如屏蔽效应。声的响度不仅取决于自身的强度和频率, 而且也依同时出现的其它声音而定。各种声音可以互相掩蔽, 一种声音的出现可能使得另一种声音难于听清。它分为听觉屏蔽、频谱屏蔽和瞬态屏蔽。频谱屏蔽是高电平音调使附近频率的低电平声音不能被人耳听到。声音的屏蔽特性可以用于声音特别是语音信号的压缩。 (2)语音编码语音编码分为三类: 波形编码、参量编码和混合编码。波形编码是将时域信号直接变换为数字代码, 其目的是尽可能精确地再现原来的话音波形。自适应量化、自适应比特分配和矢量量化等等。 2 在语音识别与合成中的应用语音识别的研究是从 20 世纪 50 年代开始的, 但直到 60 年代中期才取得了实

8、质性进展, 其重要标志就是日本学者 Itakura 将动态规划算法用于解决语音识别中语速多变的难题, 提出了动态时间收缩算法。其基本思想是 : 在训练阶段, 从词汇表中通过语音信号处理技术提出每个词的特征向量(时域特征、频域特征、尺度特征及联合分布特征), 作为标准模板存入模板库中。在识别阶段, 将输入语音的特征向量依次与模板库中的各个标准模板进行比较, 计算类似度, 将类似度最高的标准模板所对应的词汇输出。在这里和一般的模式识别不一样, 存在几个问题: 说话者语速不一致的问题; 大词汇表的问题导致计算量大的问题; 协同发音的问题(即同一音素的发音随上下文不同而变化); 对于非特定人语音识别,

9、还有一个语音多变性的困难。语音识别的这些问题, 除了在优化算法上应有所突破外 , 一个最根本的问题是语音特征量的提取问题。目前能够用于模板匹配的特征向量还不能达到少而精的要求。能够反映特定人和非特定人在语速变化下的不变特征量、在连续语音识别中的协同发音不变量等特征量还有待进一步的研究。这些工作的进展依赖于语音信号处理技术及一般的信号处理技术的突破。语音合成技术就是所谓“会说话的机器” 。它可分为三类: 波形编码合成、参数式合成和规则合成。波形编码合成以语句、短语、词或音节为合成单元。合成单元的语音信号被录取后直接进行数字编码, 经数据压缩组成一个合成语音库。重放时根据待输出的信息, 在语音库

10、中取出相应的合成单元的波形数据, 将它们连接在一起, 经解码还原成语音。参数式合成以音节或音素为合成单元。首先对所有待合成单元的语音进行分析, 提取有关语音参数, 将其编码后组成合成语音库。输出时根据待合成的语音信息从语音库中取出相应的合成参数, 经编辑和连接, 顺序送入语音合成器。语音合成器在合成参数的控制下, 重新还原语音波形。规则合成则是通过语音学规则产生语音。 3 多媒体数据库中的语音数据检索所谓基于内容检索就是从语音媒体数据中提取出特定的信息线索, 然后根据这些线索从大量存储在数据库中的语音媒体中进行查找, 检索出具有相似特征的语音数据。语音的音调、含义等是难以用符号化方法描述的信息

11、线索。人能够理解语音的含义, 但要利用这些语义线索对语音数据库进行检索就不得不在建立数据库时就事先输入并与媒体数据一起存储对应的字符信息, 对这些语音的语义进行描述。在检索时, 由人把这些语义再转换为相应的字符 , 根据字符的匹配查找相应的媒体息。很显然, 这个转换过程妨碍了有效地交互 , 被称为“转换障碍”, 很难满足用户的各种需求。对设计者来说, 给语音数据赋予能够表示全部语义特征的关键词也非常困难, 这与个人的经验、知识和对语音信息的理解程度相关, 而且也并不是所有对象的所有特征都能用字符来描述。基于内容检索就是要从媒体中直接地提取媒体的语义线索, 根据这些语义线索进行检索。这就把检索过

12、程与语义的提取直接地联系到了一起, 使得检索过程更加有效和适应性更强。基于内容的语音检索是一种集成综合技术, 不仅要确定是否能够找到 , 而且还要确定相应的输入输出方法、存储方法、媒体间的组织方法等。它建立新的媒体数据表示方法和数据模型, 采用有效和可靠的查询处理算法 ,使用户可以在智能化的查询接口的辅助下完成查询检索工作。基于内容的语音检索技术一般用于多媒体数据库中, 也可以单独的建立应用系统, 如语音库系统。该检索系统一般包括: 插入系统, 特征提取子系统, 数据库, 查询子系统。其中特征提取子系统其基本原理在时间轴上对模拟话音按一定的速率抽样, 然后将幅度样本分层量化并用代码表示。对于比

13、特速率较高的编码信号, 波形编码技术能够提供相当好的话音质量, 但对于低速率语音编码信号, 波形编码的话音质量显著下降。参量编码是将信源信号在频率域或其它正交变换域提取特征参量, 并将其变换为数字代码进行传输。它是以发音机制的模型作为基础, 用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个编码。这种编码技术能实现低速率语音编码。下面将要重点介绍的线性预测编码(LPC)和它的各种改进型都属于参量编码。混合编码是近年来提出的, 它将波形编码和参量编码结合起来 , 力图保持波形编码的高质量和参量编码的低速率的优点。它既包括若干语音特征参量又包括部分波形编码信息。(2)语音数据压缩技术要实现

14、低速率、高质量和少容量的语音编码, 必须采用信息压缩技术。语音信息压缩技术可分为两类: 波形处理技术和量化技术。波形处理技术的目标是削减语音波形的冗余度, 包括线性预测分析、频带分割、正交变换和分析合成等。量化技术的目标是在幅度量化上实现优化。媒体的内容语义是基于内容检索的基础, 与任务有关也与领域有关。基于内容的检索应该阶段完成, 第一阶段先用无领域知识的方法缩小检索空间, 第二阶段再逐步利用领域知识进行更细致的查找和匹配。声音的内容检索包括特定模式的查找,特定词、短语、音乐旋律和特定声音的查找等。早期的研究更多的是致力于语音内容的识别。但对数据库来说查找非语音信号可能会更有效, 例如讲话人

15、的性别, 声音的间隔,特殊的背景于前景声的组合等。由于声音常常伴随其它媒体存在, 寻找这些特征有利于对其它媒体的检索。例如, 在足球比赛时, 一阵大声的喧哗可能意味着进了球, 只要能够检索出这段声音, 对视频的索引也就可以基本确定。特征匹配是基于内容检索最关键的部分。从上述论述可以知道, 基于内容的语音检索中的关键技术是语音特征的提取。建立分层的语音特征表示将有利于特征提取, 同时也便于不同层次的语音信息的检索与新的信息发现。现代数字信号处理的进步都能在语音信号处理技术中得到应用。语音信号是最能体现信号非线性的一个领域。现代数字信号处理的一个主要发展趋势是对非线性、非平稳信号的研究。因此, 循

16、环平稳信号分析、多谱分析和时频尺度理论对于语音信号的表示,关键特征的捕捉有很重要的应用前景。在此基础上 , 结合语音语义理论的研究, 开展多层次的语音信号的表示将对语音信号的应用有重要价值。目前，语音理解技术开始使计算机丢掉了键盘和鼠标，人们对语音理解的研究重点正拓展到特定应用领域的自然语音理解上。一些基于口语识别、语音合成和机器翻译的专用性系统开始出现，如信息发布系统、语音应答系统、会议同声翻译系统、多语种口语互译系统等等，正受到各方面越来越多的关注。这些系统可以按照人类的自然语音指令完成有关的任务，提供必要的信息服务，实现交互式语音反馈。语音是语言的声学表现形式，是最符合人类自然习惯的一种人际信息传播方式，具有便捷性、高效性、随机性、交互性等显著特点，是实现人机交互的一种重要通信方式。可以预见，随着计算机技术、数字信号处理技术和大规模集成电路的迅速发展，语音信号数字处理技术将成为人类科学技术的重要组成部分，并直接覆盖到生活的每一个角落。

展开阅读全文