1、语音合成技术研究语音合成技术是利用电脑, 按规定的程序和指令, 人为产生语音的技术。语音合成是一门跨学科的前沿技术, 涉及语言学、语音学、信号处理、心理学、声学等学科。语音合成的目的是让计算机说话。比如, 将文本文件内容、Word 文件内容等文字信息按语音处理规则转换成语音信号输出, 使计算机流利地读出文字信息, 使人们通过“听”就可以知晓信息的内容。这种将文字转换成语音的技术称之为文语转换( TTS) 。TTS 是当前语音合成技术研究的主要方向。一般人机交换信息的方式是采用键盘和显示器, 随着科学技术的发展, 现在已经出现了方便、迅速、有效的人机通信方式, 那就是计算机语音识别与合成。这种技
2、术可以应用于各个部门。例如, 在办公自动化系统中, 使计算机具有讲话和聆听理解的能力能大大提高办公人员的工作效率在邮电部门, 用口呼语音控制分拣邮包, 用口呼语音自动查报电话号码在军事部门, 可用口呼语音来指挥系统在民政部门, 可让四肢残疾人的轮椅听命于残疾人日呼的控制命令在保密单位, 可用声音做成身份鉴别系统计算机语音教学目前也发展迅速。总之, 无论从哪个角度来讲, 语音识别的研究在全世界正方兴未艾, 其意义深远, 应用领域宽广, 语音和计算机的结合将使计算机的发展提高到一个新的水平。1 语音合成的研究历史及现状语音合成最早可追溯到 17 世纪, 法国人研制了一个机械式的会说话装置。自 19
3、 世纪出现了电子合成器后, 语音合成研究得到飞速发展3。1939 年, 贝尔实验室 H.Dudley 制作的第 1 个电子合成器 VODER 在美国纽约的博览会上展出。它是利用共振峰原理4制作的语音合成器, 能产生连续的语音。语音学研究结果表明, 决定语音感知的声学特征主要是语音的共振峰。音色各异的语音具有不同的共振峰模式, 因此, 以每个共振峰频率及其带宽作为参数, 可以构成共振峰滤波器, 然后用若干个这种滤波器的组合来模拟声道的传输特性( 频率响应) , 对激励源发出的信号进行调制, 再经过辐射模型就可以得到合成语音。1960 年, 瑞典语言学家和言语工程学家 G.Fant 在Acoust
4、icTheory of Speech Production中系统阐述了语音产生的理论, 推动了语音合成技术的发展。线性预测编码( LPC) 分析5是最有效的语音分析技术之一, 利用该技术可对语音产生模型的参数进行准确估计。LPC 合成技术本质上是一种时间波形的编码技术, 其目的是为了降低时间域信号的传输速率。 20 世纪 70 年代以后, 线性预测技术开始用于语音编码和识别。同时, 可根据线性预测参数用多种方法来综合语音。1980 年, MIT 教授 D.Klatt 设计了串/并联混合共振峰合成器6。它用串联通道产生元音和浊辅音、并联通道产生轻辅音,还可对声源作出各种选择和调整, 模拟不同的嗓
5、音。20 世纪 80 年代末, Moulines E 和 Charpentier F 提出基于时域波形修改的语音合成算法 PSOLA 710。PSOLA 技术着眼于对语音信号超时段特征的控制, 如基频、时长、音强等, 而这些参数对于语音的韵律控制及修改至关重要。因此, PSOLA 技术与 LPC 技术相比具有可修改性更强的优点, 可以合成出高自然度的语音, 从而推动了波形拼接语音合成与文语转换技术的发展和应用。20 世纪 80 年代, 我国开始介入汉语 TTS 领域的研究。清华大学中国科学院声学所、中国科技大学等单位都开展了相关研究工作并取得较好成绩,有些研究成果已转化为产品得到了实际应用,
6、如清华大学的 Sonic 系统、中国科技大学的 DK- 863 汉语文语转换系统等。2 语音合成系统的组成语音合成系统主要包括 3 部分: 文本分析模块、韵律生成模块和合成语音模块, 其结构见图 1。图一:语音合成系统框图其中, 合成语音模块是最基本、最重要的模块。文本信息首先由文本输入模块读入; 接着文本分析模块即文本的预处理模块, 主要完成自动分词、多音字处理、特殊符号的转换、文本的切分等, 然后将处理好的数据送入韵律生成模块和合成语音模块; 韵律生成模块根据各项合成规则规划出目标音高、音长、音强、停顿及语调等, 将规划的结果参数送入合成语音模块; 合成语音模块利用合成算法合成出满足目标要
7、求的音节波形数据, 将其拼接成语音流数据送入语音输出模块,最后由语音输出模块输出语音。3 常见语音合成技术语音合成技术经历了一个逐步发展的过程, 从参数合成到拼接合成再到两者的逐步结合, 其不断发展的动力是人们认知水平和需求的提高。目前, 常用的语音合成技术主要有共振峰合成、发音器官参数合成、LPC 合成、PSOLA 技术和 LMA 声道模型11技术。它们各有优缺点, 人们在应用过程中往往将多种技术有机结合; 或将一种技术的优点运用到另一种技术上, 以克服单一技术的不足。3.1 共振峰合成共振峰合成是对声源声道模型的模拟。它把人的声道视为一个谐振腔, 腔体的谐振特性决定所发出语音信号的频谱特性
8、, 即共振峰特性。当共振峰合成的参数设置合理时, 能以较低的代价产生具有高可懂度的合成语音, 同时, 通过修改参数可获得不同特性的语音。但其主要缺点是控制参数难以自动地准确估计, 往往需要手动调整。20 世纪 90 年代以前, 共振峰合成器一直处于主流地位。3.2 发音器官参数合成发音器官参数合成直接模拟人的发音过程。它定义了唇、舌、声带的相关参数, 由这些参数估计声道截面积函数, 进而计算声波。这种合成方法有可能产生逼真的语音, 但由于人发音生理过程的复杂性, 目前缺少行之有效的手段来准确测定这些参数, 故发音器官参数合成尚处于实验研究阶段。文本 文本分析 合成模块韵律控制语音数据库输出3.
9、3 LPC 合成LPC 合成属于线性源声道语音产生模型中的全极点数字滤波器模型。LPC 合成技术的优点是简单、直观, 对于单个合成基元来说能获得很高的自然度。它是一种时间波形的编码技术, 从本质上来说只是一种录音加重放, 对于合成整个连续语流, 其效果并不理想12。因此, LPC 合成技术必须和其他技术相结合, 才能明显改善 LPC 合成的质量。3.4 PSOLA 技术PSOLA 技术使基于时域波形拼接方法合成的语音的音色和自然度大大提高。其主要特点: 在拼接语音波形片断之前, 根据上下文要求, 用 PSOLA 算法对拼接单元的韵律特征( 如基频、音长、音强等) 进行调整, 使合成波形既保持原
10、发音的主要音段特征、又能使拼接单元的韵律特征符合上下文要求, 从而获得很高的清晰度和自然度。根据修改的参数不同, PSOLA 技术又分为 3 种方式13: 时域基音同步叠加( TD- PSOLA) 、频域基音同步叠加( FD- PSOLA)和线性预测基音同步叠加( LPC- PSOLA) 。PSOLA 技术保持了传统波形拼接技术的优点, 简单、直观、运算量小, 且能方便控制语音信号的韵律参数, 具有合成自然连续语流的条件, 得到了广泛应用。但 PSOLA 技术也有其缺点。首先, PSOLA 技术是一种基音同步的语音分析/合成技术 ,这需要准确的基音周期以及对其起始点的判定。基音周期或其起始点的
11、判定误差将会影响 PSOLA 技术的效果。其次, PSOLA 技术是一种简单的波形映射拼接合成, 这种拼接是否能保持平稳过渡以及对频域参数有何影响等并未得到解决, 因此, 在合成时并不能收到理想效果。3.5 LMA 声道模型技术随着人们对语音合成的自然度和音质的要求越来越高,PSOLA 技术表现出对韵律参数调整能力较弱和难以处理协同发音的缺陷, 因此, 人们又提出了一种基于 LMA 声道模型的语音合成方法。这种方法具有传统的参数合成, 可以灵活调节韵律参数的优点, 同时又具有比 PSOLA 技术更高的合成音质。目前, 主要的语音合成技术是共振峰合成技术和基于 PSOLA 算法的波形拼接合成技术
12、。这2 种技术各有所长, 共振峰合成技术比较成熟, 有大量的研究成果可利用; 而PSOLA 技术则是比较新的技术, 具有良好的发展前景。过去这 2 种技术是独立发展的, 现在许多学者开始研究二者之间的关系, 试图将二者有效结合起来, 从而合成更加自然的语流。例如, 清华大学的研究人员进行了将共振峰修改技术应用于 PSOLA 算法的研究, 并用于 Sonic 系统的改进, 研制出具有更高自然度的汉语文语转换系统。4 语音合成的发展方向和研究热点随着语音合成技术的广泛应用, 可以预见语音合成技术将主要向下面 4 个方向发展。4.1 提高合成语音的自然度提高合成语音的自然度仍然是高性能 TTS 的当
13、务之急。就汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但到句子乃至篇章一级时,其自然度问题就较大。基于语音数据库的语音合成方法有希望进一步提高语音合成的自然度。因为这是一种采用自然语音波形直接拼接的方法,进行拼接的语音单元是从一个预先录下的自然语音数据库中挑选出来的, 因此有可能最大限度地保留语音的自然度。但由此产生了一系列新的需要研究的问题,包括: 如何确定语音合成的基元,根据什么准则去挑选合适的基元;韵律参数定量化问题及如何将统计的方法和规则方法相结合使机器能自动发现和找出所需的语音单元,保证最高的合成语句自然度等。无论用哪种合成方法,韵律规则的总结,特别
14、是连续语音的韵律规则总结,对自然度始终有最重要的影响。前端文本处理,对合成语音的自然度也具有举足轻重的影响,完整全面地解决,需要自然语言理解的突破。4.2 丰富合成语音的表现力目前国内外大多数语音合成研究是针对 TTS 系统, 且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩。随着信息社会的需求发展,对人机交互提出了更高的要求,人机口语对话系统的研究也提到了日程上。即语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。这不仅对语音合成技术提出了更高的要求,而且涉及到计算机语言生成和人类大脑的高级神经活动。但就
15、语音合成来说,仍是一个要丰富合成语音的表现力问题。相对来说,采用波形拼接方法来增强合成语音表现力较困难, 尽管也可通过增加音库容量和音库个数来达到改变合成语音的特性, 但毕竟其对韵律的控制能力非常有限。更为有效的办法是采用参数合成法分析参数特征,通过对相关参数的调整来改变年龄、性别特征,进一步变化语气、语调,由于这种改变是连续的,对象特征可千千万万,显得更有生命力。4.3 降低语音合成技术的复杂度语音合成技术正在走向市场。为了适应社会的需求,扩大文语合成的应用场合,除了解决好上面 2 个问题外,在其他实用化方面也有要加以改进的地方。就目前汉语 TTS 系统而言,减小音库容量是一个重要课题。目前
16、高质量的汉语TTS 系统一般需要几兆到几十兆,甚至几百兆字节的存储容量, 这在以 PC 机或工作站为硬件平台的应用中没有问题,而对于 PDA 及无线通信手机、商务通等资源有限的设备上就没法承受。解决方法可以通过语音压缩编码的方法来压缩音库所需的容量,或采用更小的合成基元,如用声母、韵母或双音素、半音节及减少合成语音所需的音节基元数等。然而又不能增加算法的复杂度,因为运算量及系统开销同样会直接影响语音合成的应用。既要提高语音合成的质量,又要降低语音合成的复杂度,这始终是一个矛盾的两个方面。4.4 多语种文语合成语言是人们交流的工具, 不同民族有自己不同的语言, 不同语言之间的交流在开放的信息社会
17、和网络时代显得十分重要, 多语种的文语合成有着独特的应用价值。如,在自动电话翻译、有声的电子邮件等中都提出了多语种的合成, 即使是对某种语言的语音合成也有多方言 TTS 的需求。理想的多语种合成系统最好是各种语言共用一种合成算法或语音合成器, 但是现有的语音合成系统大多是针对某一种语言或若干种语言开发出来的, 所采用的算法及规则都是和某种语言密切相关的,因此很难推广到其他的语种。如,汉语与西方语言有很大差异,国内的系统都是做汉语 TTS,其韵律控制规则完全不适合于维吾尔语, 而且主要是合成汉语普通话, 即使推广到广东话和上海话都有相当的难度。可见,要真正解决多语种的文语合成,从文本处理到语音合
18、成都必须有新的思路。美国贝尔实验室在多语种 TTS 方面作了大量的工作,其中包括汉语普通话合成,值得注意。语音合成技术经过近 10 年的飞速发展,从传统的规则合成技术发展到现在的基于大语料库和数据驱动的技术。系统也从单一语种发展到多语种,而且也变得越来越灵活。进一步提高合成语音的自然度,依然是研究工作者的主要目标之一。目前,其他计算机领域的研究发展,如数据挖掘技术、自然语言理解技术、信号处理技术等,正不断加速向语音合成领域中渗透, 并极大地推动着语音合成系统,朝着像人一样会自然流畅地说话,会学习并能自动模拟的方向发展。4.5 可视语音心理学研究证明, 人们的感知和理解受说话者面部的可视语音和伴
19、随的手势动作的影响, 视觉合成语音将被证明与听觉合成语音一样有价值。实验证明, 在理解语音过程中视觉信息的重要性: 当声音受损或不完全时, 完整的自然人脸可以恢复 2/3 的听力理解错误; 人脸模型( 没有舌头) 可以恢复 1/2 的错误; 单独的嘴唇模型可以恢复 1/3 的错误。另外, 进一步提高语音合成的自然度、降低语音合成技术的复杂度、减少音库容量、扩大应用领域等都将是语音合成技术的发展方向。5 语音合成的典型应用随着计算机技术进入了网络和多媒体时代, 语音合成技术也有了飞速的发展,TTS 已应用到信息咨询、电话银行、办公自动化等各个方面。它把声音和文字、图像集成在一起,增强了人们的理解
20、。5.1 电子文档的有声输出目前,计算机中存有大量文本,语音合成技术可提供声音输出,弥补只有屏幕显示的不足。无论以任何方式得到的文字,都可将其转换成声音。下图示出了电子文档有声输出的原理框图。上图中的系统包括文本输入、有声制作、电子文库管理、语音合成等模块。文档的录入可由多种方式获得,如扫描仪输入,经 OCR 识别后形成文本文件;键盘输入,数据库读出等。一般情况下,电子文档可直接转换成声音。5.2 声信有声服务网络技术的飞速发展 Internet 服务项目日益增多,时效性提高,电话已成为人与网络交互信息的终端,如通过电话查询股票行情。这里不但用到语音合成技术,还必须与电话技术紧密配合, 即 C
21、TI (ComputerTelephone Integration)或IT(Internet Telephony) 。这促进了电话网和数据网的结合, 为人们提供了全新的服务。TTS 技术已应用到银行、邮局、劳保、证券、专利。借助 TTS 技术,把数据库中的文字变成声音,用户利用电话收听即时变化的信息。上图示出了 IT 解决方法的原理框图。用户可通过计算机或电话得到Internet 的服务。当以电话方式获得服务时, 信息提供商应能自适应地传送用户所需信息,即将文字、图表及有关信息转换成声音,传送到用户的电话上。TTS 技术是实现这些服务的关键。语音是人机交互的重要手段, 具有广阔的应用前景。语音技术已成为智能计算领域的研究热点,但技术的成熟度、应用的广泛性与需求还有较大的差距。无论技术的进步、应用的开拓,还需付出巨大的努力。目前,合成语音的可懂度、清晰度基本解决,自然度还不尽人意,表现力差距较大。从应用的角度,把语音输出看作为“锦上添花”是不够的。比如盲人计算机、即时信息服务、语音报警提示、口语机器翻译中语音合成就是非常必要的。语音输出可为人和电子信息提供声音通道,提高接受信息的速度和效率。计算机语音技术将伴随我们畅游信息的时代。