语音识别技术综述.doc-道客多多

资源描述

1、语音识别技术综述电子信息工程 2010 级 1 班郭珊珊【摘要】随着计算机处理能力的迅速提高，语音识别技术得到了飞速发展，该技术的发展和应用改变了人们的生产和生活方式，正逐步成为计算机处理技术中的关键技术。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。【关键词】语音识别；语音识别原理；语音识别发展；产品语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器人自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的命令或文本的高新技术。1 语音识别的原理语音识别系统本质是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单位元。未知

2、语音经过话筒变换成电信号后加载识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需特征，在此基础上建立语音识别所需的模板。计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表可给出计算机的识别结果。这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。2 语音识别系统的分类语音识别系统可以根据对输入语音的限制加以分类。 2.1 从说话者与

3、识别系统的相关性考虑可以将识别系统分为 3 类： (1)特定人语音识别系统：仅考虑对于专人的话音进行识别； (2)非特定人语音系统：识别的语音与人无关，通常要用大量不同人的语音数据库对识别系统进行学习； (3)多人的识别系统：通常能识别一组人的语音，或者成为特定组语音识别系统，该系统仅要求对要识别的那组人的语音进行训练。 2

4、.2 从说话的方式考虑也可以将识别系统分为 3 类： (1)孤立词语音识别系统：孤立词识别系统要求输入每个词后要停顿； (2)连接词语音识别系统：连接词输入系统要求对每个词都清楚发音，一些连音现象开始出现； (3)连续语音识别系统：连续语音输入是自然流利的连续语音输入，大量连音和变音会出现。 2.3 从识别系统的词汇量大小考虑也可以

5、将识别系统分为 3 类： (1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。 (2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。 (3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高，识别系统根据词汇量大小进行分类也不断进

6、行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。3 语音识别技术的发展3.1 国外研究历史及现状语音识别的研究工作可以追溯到 20 世纪 50 年代 AT&T 贝尔实验室的 Audry 系统，它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展，并将其作为一个重

7、要的课题开展研究则是在 60 年代末70 年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能，更重要的是语音信号线性预测编码（ LPC）技术和动态时间规整（ DTW）技术的提出，有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理，研究的领域局限在特定人，小词汇表

8、的孤立词识别，实现了基于线性预测倒谱和 DTW 技术的特定人孤立词语音识别系统；同时提出了矢量量化 (VQ)和隐马尔可夫模型 (HMM)理论。随着应用领域的扩大，小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽，与此同时也带来了许多新的问题：第一，词汇表的扩大使得模板的选取和建立发生困难；第二，连续语音中，各个音

9、素、音节以及词之间没有明显的边界，各个发音单位存在受上下文强烈影响的协同发音（ Co-articulation）现象；第三，非特定人识别时，不同的人说相同的话相应的声学特征有很大的差异，即使相同的人在不同的时间、生理、心理状态下，说同样内容的话也会有很大的差异；第四，识别的语音中有背景噪声或其他干扰。因此原有的模板匹配

10、方法已不再适用。实验室语音识别研究的巨大突破产生于 20 世纪 80 年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大学 (CarnegieMellonUniversity)的 Sphinx 系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。这一时期，语音

11、识别研究进一步走向深入，其显著特征是 HMM 模型和人工神经元网络 (ANN)在语音识别中的成功应用。 HMM 模型的广泛应用应归功于 AT&TBell 实验室Rabiner 等科学家的努力，他们把原本艰涩的 HMM 纯数学模型工程化 ,从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。统计方法将研究者的视线从微观转向宏观，不再刻

12、意追求语音特征的细化，而是更多地从整体平均（统计）的角度来建立最佳的语音识别系统。在声学模型方面，以Markov 链为基础的语音序列建模方法 HMM（隐式 Markov 链）比较有效地解决了语音信号短时稳定、长时时变的特性，并且能根据一些基本建模单元构造成连续语音的句子模型，达到了比较高的建模精度和建模灵活性。在语言层面上，

13、通过统计真实大规模语料的词之间同现概率即 N 元统计模型来区分识别带来的模糊音和同音词。另外，人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。 20 世纪 90 年代前期，许多著名的大公司如 IBM、苹果、 AT T 和 NTT 都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识

14、别的准确率，而这项指标在 20 世纪 90 年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有： IBM 公司推出的 ViaVoice 和 DragonSystem 公司的NaturallySpeaking,Nuance 公司的 NuanceVoicePlatform 语音平台， Microsoft 的Whisper,Sun 的 VoiceTone 等。其中 IBM 公司于 1997 年开发出汉语 ViaVoice 语音识别系统，次年又开发

15、出可以识别上海话、广东话和四川话等地方口音的语音识别系统 ViaVoice98。它带有一个32,000 词的基本词汇表，可以扩展到 65,000 词 ,还包括办公常用词条，具有 “纠错机制 ”，其平均识别率可以达到 95%。该系统对新闻语音识别具有较高的精度，是目前具有代表性的汉语连续语音识别系统。 3.2 国内研究历史及现状我国语音识别研究工作起步

16、于五十年代，但近年来发展很快。研究水平也从实验室逐步走向实用。从 1987 年开始执行国家 863 计划后，国家 863 智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。中科院自动化所、声学所、清华大学

17、、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究，其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统

18、的识别精度，达到 94.8%（不定长数字串）和 96.8%（定长数字串）。在有 5%的拒识率情况下，系统识别率可以达到 96.9%（不定长数字串）和98.7%（定长数字串），这是目前国际最好的识别结果之一，其性能已经接近实用水平。研发的 5000 词邮包校核非特定人连续语音识别系统的识别率达到 98.73%，前三选识别率达 99.96%；并且可以识别普通

19、话与四川话两种语言，达到实用要求。中科院自动化所及其所属模式科技 (Pattek)公司 2002 年发布了他们共同推出的面向不同计算平台和应用的 “天语 ”中文语音系列产品 PattekASR，结束了中文语音识别产品自 1998 年以来一直由国外公司垄断的历史。 4 语音识别的方法一般来说 ,语音识别的方法有三种：基于声道模型和语音知识的方法、模板匹

20、配的方法以及利用人工神经网络的方法。 4.1 基于语音学和声学的方法该方法起步较早，在语音识别技术提出的开始，就有了这方面的研究，但由于其模型及语音知识过于复杂，现阶段没有达到实用的阶段。通常认为常用语言中有有限个不同的语音基元，而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现：第一步，分

21、段和标号把语音信号按时间分成离散的段，每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号第二步，得到词序列根据第一步所得语音标号序列得到一个语音基元网格，从词典得到有效的词序列，也可结合句子的文法和语义同时进行。 4.2 模板匹配的方法模板匹配的方法发展比较成熟，目前已达

22、到了实用阶段。在模板匹配方法中，要经过四个步骤：特征提取、模板训练、模板分类、判决。常用的技术有三种：动态时间规整 (DTW)、隐马尔可夫（ HMM）理论、矢量量化（ VQ）技术。 4.2.1 动态时间规整 (DTW) 语音信号的端点检测是进行语音识别中的一个基本步骤，它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落 (

23、如音素、音节、词素 )的始点和终点的位置，从语音信号中排除无声段。在早期，进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。 60 年代日本学者 Itakura 提出了动态时间规整算法(DTW： DynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短 ,直到与参考模式的长度一致。在这一过程中，未知单词的时间轴要不

24、均匀地扭曲或弯折，以使其特征与模型特征对正。 4.2.2 隐马尔可夫法 (HMM) 隐马尔可夫法 (HMM)是 70 年代引入语音识别理论的，它的出现使得自然语音识别系统取得了实质性的突破。 HMM 方法现已成为语音识别的主流技术，目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于 HMM 模型的。 HMM 是对语音信号的时间序列结构建立统

25、计模型，将之看作一个数学上的双重随机过程：一个是用具有有限状态数的 Markov 链来模拟语音信号统计特性变化的隐含的随机过程，另一个是与Markov 链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来，但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程，语音信号本身是一个可观测的时变序列，

26、是由大脑根据语法知识和言语需要 (不可观测的状态 )发出的音素的参数流。可见 HMM 合理地模仿了这一过程，很好地描述了语音信号的整体非平稳性和局部平稳性 ,是较为理想的一种语音模型。 4.2.3 矢量量化 (VQ) 矢量量化 (VectorQuantization)是一种重要的信号压缩方法。与 HMM 相比 ,矢量量化主要适用于小词汇量、孤立词的语音识别中。其

27、过程是：将语音信号波形的 k 个样点的每一帧，或有 k 个参数的每一参数帧，构成 k 维空间中的一个矢量，然后对矢量进行量化。量化时，将 k 维无限空间划分为 M 个区域边界，然后将输入矢量与这些边界进行比较，并被量化为 “距离 ”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找

28、到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量，实现最大可能的平均信噪比。核心思想可以这样理解：如果一个码书是为某一特定的信源而优化设计的，那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真，也就是说编码器本身存在区分能力。在实

29、际的应用过程中，人们还研究了多种降低复杂度的方法，这些方法大致可以分为两类：无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。 4.3 神经网络的方法利用人工神经网络的方法是 80 年代末期提出的一种新的语音识别方法。人工神经网络 (ANN)本质上是一个自适应非线性动力学系统，模拟

30、了人类神经活动的原理，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强的分类能力和输入 -输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点，目前仍处于实验探索阶段。由于 ANN 不能很好的描述语音信号的时间动态特性，所以常把 ANN 与传统识别方法结合，分别利用各自优点来进行语音识别。5 语音识别

31、产品语音识别产品技术的应用可以分为两个发展方向：一个方向是大词汇量连续语音识别系统，主要应用于计算机的听写机，以及与电话网或者互联网相结合的语音信息查询服务系统，这些系统都是在计算机平台上实现的；另外一个重要的发展方向是小型化、便携式语音产品的应用，如无线手机上的拨号、汽车设备的语音控制、智能玩具、家电遥控等方面的应用，这些应用系统大都使用专门的硬件系统实现，特别是近几年来迅速发展的语音信号处理专用芯片（Application Specific Integrated Circuit，ASIC）和语音识别片上系统（System on Chip，SOC ）的出现，为其广泛应用创造了极为有利的条件。

32、5.1 Nuance 的 Dragon Dictation Dragon Dictation（中文名称：声龙听写）是由 Nuance 公司推出的适用于 iPhone，iPad和 iPod touch 用户的一款语音识别应用软件，将用户的语音转换成文字。软件目前支持美国英语、英国英语、澳大利亚英语、法语、德语、意大利语、西班牙语、日语、韩语和中文。Dragon Dictation 可以将我们说的话转换成文字，然后直接发送短信、电子邮件或是发布到微博等 SNS 网站上。使用剪贴板粘贴语音转成的文本保存，做其他用途。同时还有有智能选字、选词的列表建议。语音操控的修正界面为用户提供了更方便的修正功能

33、。5.2 Google 公司的 Voice Actions Voice Actions 是 google 推出的语音搜索应用程序，通过它，你可以用语音给运行 Voice Actions 的手机下命令，诸如发信息、打电话、听音乐等。它提供了非常坚实可靠的声音识别引擎，较高识别度令人称奇。并且它也推出了针对中国用户的中文版。 5.3 苹果公司的 SiriSiri 是苹果公司在其产品 iphone4s 上应用的一项语音控制功能。技术来源于美国国防部高级研究规划局所公布的 CALO 计划：一个让军方简化处理一些繁复庶务，并具学习、组织以及认知能力的数字助理，其所衍生出来的民用版软件 Siri 虚拟个

34、人助理。Siri 可以令 iPhone4S 变身为一台智能化机器人，利用 Siri 用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。Siri 可以支持自然语言输入，并且可以调用系统自带的天气预报、日程安排、搜索资料等应用。还能够不断学习新的声音和语调，提供对话式的应答。Siri 目前支持四种语言：英文，法文，德文，日语。其中英文分美式，英式，澳大利亚式。5.4 VocreVorce 是一款非常受欢迎的 iPhone 口译应用，它旨在帮助经常处于不同语言环境中的人们轻松突破语言障碍、实现自由沟通。有了 Vocre，你在与外国人聊天时，只需打开 Vocre，选择对方的语言和性别，剩下的

35、事情 Vocre 会帮你解决。当你的 iPhone 竖着放时对它讲话，把它横过来，它会自动翻译你对它说的话。Vocre 通过 Nuance 将语音转换成文字，通过他们自己的众包机器学习技术，将文字翻译之后，再通过 iSpeech 重新将文字转换成语音。通过 Vorce 软件，来自不同国家有不同语言背景的两个人可以自由交流。5.5 IBM 的 ViaVoice 和微软的 Speech SDK IBM ViaVoice 是一种通过麦克风输入中文的一种程序。特别适合电脑初学者，您所需要做的仅仅是对着话筒喊出您要输入的字符，ViaVoice 就会自动判断并且帮你输入汉字。作为语音识别软件系列的产品，它

36、可以使 PC、手提设备、汽车系统和自动客户服务系统之间的信息交流变得轻松快捷。作为第一个全功能的语音指令桌面程序，运行在 Windows 下的 ViaVoice 支持 Microsoft Office 2003，为不同要求的用户提供了精确的语音识别技术。与其它语音识别系统一样，它能够不断学习和适应用户的特定语音，并不断提高识别的准确度。ViaVoice 同样可以对识别出来的文本进行修改纠错，这也让软件变的更加实用。6.总结与展望总结当前语音识别产品市场，语音识别产品在我们生活的各个领域有着越来越广泛的应用。从移动终端到 PC 终端，从电信行业到汽车行业，语音识别产品的出现极大的方便了我们的生活

37、，为我们提供了一种更为亲切便捷的人机交互方式。同时，智能语音行业具有很高的行业技术壁垒，必须有时间的积累和资金的投入才能做出适应市场需求的产品。我们可以发现当前市场上主流的语音识别产品都是诸如 google、微软、苹果这样的行业巨头推出来。对比国内和国外的相应语音识别产品，国内语音市场主要以语音合成为主，国外语音市场主要以语音识别为主，国内的技术发展水平相比国外仍然存在一定的差距，这也激励我们要用更大的付出去努力追赶。展望未来语音识别产品，以产业界为创新主体，包括语音识别在内的信息处理发展将需要迫切与云计算相结合，从计算、存储和群体智慧等全方位产生新的突破是可以预期的。未来语音识别市场还有很大潜力可以挖掘，出现爆发式增长也是指日可待。相信未来随着科技的发展，语音识别产品终将走入寻常百姓家为人们的生活提供更大的便捷。

展开阅读全文