1、国内统计信号处理在音频模式识别中的应用摘要语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业,目前具有代表性的语音识别方法主要有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ )、人工神经网络(ANN)、支持向量机(SVM)
2、等方法。在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者” 和生活 “伙伴”;使用电话与通信网络,人们可以通 过语音命令方便地从远端的数据库系统中查询与提取有关的信息;随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一个手 表那么大,再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘, 通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于 98
3、,对特定人语音识别系统的识别精度就更高。这些技术已经能 够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识 别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功 能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。调查统计表明多达 85以上的人对语音识别的信息 查询服务系统的性能表示满意。可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产
4、品将出现在市场上。人们也将调整自己的说话方式以适应各种各样 的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍然是人类面临的一个大的挑战,我们只能一步步朝着改进语音识别系统 的方向一步步地前进。至于什么时候可以建立一个像人一样完善的语音识别系统则是很难预测的。就像在 60 年代,谁又能预测今天超大规模集成电路技术会对我们 的社会产生这么大的影响。 在语音识别系统中必然存在预处理,存在语音信号处理的过程,因此能否对语音信号作很好的处理则是一个很重要的环节,因此我们可利用信号处理的理论对其进行描述。主题一:我国信号处理技术的发展9 8 年在中国电子学会和中国仪器仪表
5、学会的组织下 成立了信号处理学会 该学会分个专业学组 ,即:理论与方法学组 ,振动信号处理学组,语声、图像及通信信号处理学组,雷声信号处理学组和信号处理系统与设备学组。在信号处理的理论和应用方面取得了一大究成果,使我国信号处理技术水平由起步一跃而进入了国际先进行列。1 9 9 0 年我国在北京主持召开了第一届国际信号处理学术会议,来自 2 3 个国家和地区的专家学者 ,交流了学科最新成果 ,2 5 0 余篇论文中一半以上集中了国内的优秀成果。会议的胜利召开是我国信号进入国际学术行列的标志。特别值得欣慰的是我们学会的取名。我们的学会自成立开始即为信号处理学会,而国际 I E E E 的相应学会“
6、声学,语言信号处理学会 “ ( A S S P)亦于 1 9 90年起更名为信号处理学会 ( S P )采用了与我国相同的名称。第二届国际信号处理学术会议I c sP 9 3 将于 1 9 9 3 年 1 0 月在北京召开 ,将有国内外稿件 3 5 。余篇发表 ,其中有近一半是国内稿件,将充分反映国内的研究水平。国内信号处理技术的进展可以从以下三个方面来介绍 ,即 :1.理论和算法 ;2 应用发展。1 理论和算法. 离散变换 19 6 0 年 G oo d 提出了快速付立叶变换的想法,1 9 6 5 年 C o o l e y 和 T u k c y 又独立地发表了 F FT 算法,数字信号处
7、理发生了革命性的改变。R a d e r 等于 1 9 7 0 年提出了计算素数点的 D F T 方法 (PF A )使 FFT 算法所适用的范围从幕次序列长度推广到了素数序列长度的场合。W i n o g r ad 于 19 7 8 年在总结了 R a d e r 算法后 ,系统地提出了算法的结构理论。1 9 8 4 年 D uhm e l 发表了义基基 ZF FT 算法,即 SPFF T 使 D F T 和 FFT 的算法进入了比较完善的地步。我国学者在 PFA 方法方面详细地讨论了它与 F FT 的关系,从映射的角度统一了素因子分解算法 (PFA )、时域分解的 C o o l e y
8、一 T uke y FFT 算法和频域分解的 C o ol e y 一 T uk e y FFT 算法。对 PFA 算法与基 ZF FT 算法的差别有了深刻的认识,并且指出基 ZFF T 的计算误差可以用点数近似的素因子分解算法的误差来计算 。在义基基 S PF FT 的研究中指出,时域分解 s P FFT 与频域分解的 SPFFT 信号流图之间, 并没有经典 FF T 算法那种互相置换的拓扑关系。在算法速度上,除了 N 3 2、N 一 6 4 及 N 一 1 2 8 时 ,义基算法明显快于经典算法外 ,点数较大时两者速度几乎接近。W FT A 一般仅适合于小点数的变换,对于 N ) 1 6
9、以后,其编程工作的复杂性按指数规律增加,所以对大点数的 D F T 仍是一个待研究的问题。利用两个模块构成第 4 期 袁保宗:信号处理技术的若干进展 (国内)3PFF T 算法已经给出了 N 一 1 3、1 7、1 9、2 3 及 2 9、3 1 点 D F T 算法。根据这一方法实现了长度为 1 0 0 9 点的 D F T 快速算法 。我国学者在实现 FFT 方面还提出了素数长度的递归 D FT 算法 ,并且在此基础上又提出了具有 N 次乘法的快速付立叶变换算法。1 9 7 8 年至 1 9 8 1 年 ,H.J.N u s s b a n m e r 在利用多项式变换计算 D FT 和卷
10、积后 ,我国学者也做了很多工作,先后实现了二维数字卷积的 FP T (快速多项式变换 )和超大型二维循环卷积的 F PT 和 F N T (Fe r m a t 数论变换),这种超大型二维卷积是利用 M = ZJ 十 1,d 一 2 b 的 F N T 计算规模大于二维循环卷积的方法 ,研究表明将 F N T 和 FPT 结合可以计算任何 N M 二维循环卷积(N 三 2 t,M 一 2 十一 )。多变量多项式变换的研究也得到了发展 ,一种计算卷积的新算法已被提出,它 比传统办法压缩更多的乘法和加法次数 ,它被用来计算三维 (1 61 61 6 ) 的卷积时间为 1 7.3 25 ,或三维 (
11、1 2 812 88 )的卷积时间为 7 3.3 2 5 ,或三维 (12 8.12 88 )的卷积时间为 7 3.1 8 5(在 V A X 8 3 0 o 机上 )。离散 W 变换是我国学者的贡献 ,现在得到国际学术界的引用。但是二维离散 W 变换不能直接分解为两个一维 D W T 的乘积 。我国学者又提 出了用一维 D W T 表示及计算 D W T 的新形式,并构造了用一维快速 D W T 来计算二维 D W T 及实现二维卷积。, 谱估计理论 随机信号的谱估计是信号处理的主要内容之一 ,它在振动、医学、航天 、航空以及雷达等领域有重要用途 。尽管以付立叶变换为基础的周期图法是长期以来
12、最流行的功率谱估计算法,但是它致命的弱点是频谱分辨率的限制。为了克服这个缺点,1 9 6 7 年 Bu r g 提出了最大嫡谱估计 ,E.Pa r a e n 1 9 8 6 年提 出 A R 谱估计 ,从此 ,高分辨率谱估计方法成了研究的热点,相继出现一系列非线性谱估计方法 ,如最小交叉嫡谱分析法 ,A R MA 模型参数估计法 ,P i s o r e n k。谱分解法 ,最大似然法 ,P r o n y 复极点模型法等。我国学者编写的随机数字信号处理 一书 ,详细地总结了各类谱估计方法,有关的算法程序亦由我国学者完成的 近代数字信号处理通用程序 一书中以源程序方式刊出。这些方法在国内已有
13、了广泛的研究及应用 。最大嫡方法 ME M Z 和倒谱分析方法,初看起来是互不相关的两个领域 ,但是它们的联系被我国学者发现 :最大嫡 M E M I 公式中的拉格朗 日不定乘子与自相关序列的复倒谱及时间序列的实倒谱互为复共扼 ,从而使倒谱分析方法可用于 M E M Z 开辟 了新的途径 。利用二阶矩理论所能解决的谱估计或建模问题 ,一般仅能涉及最小相位,因果型,高斯过程激励以及线性问题 。而事实上 ,许多地震信号 、天文时间序列,数字通信中的信道等效信号等问题 ,常常涉及到非最小相位 ,非因果,非高斯过程以及非线性系统等严重问题。这时高阶统计量以及高阶谱起到重要作用。早在 6 0 年代,H.
14、A kaike ,K.H a s sl m a n ,M DG o d f r e y 等人已提出高阶谱的数字基础。但由于计算量大及结构复杂等原因未能应用。直到 8 0 年代初期才又被人们所重视 ,C.L.N ik a i s ,J.M .Me nd el,M .R o s e nbl a t 等人做了大量的工作,才使其成为最近以来谱估计方面兴起的又一个新热点。我国是在 1 9 8 6 年第三届信号处理会议时开始注意多谱估计问题 。1 9 8 9 年在电子学报 上较系统地介绍了多谱估计的参数方法 ,之后相继的研究工作给出了一种两步法的扩展 ,根据最小嫡原理 ,提出了一基于 2 阶和 4 阶积累
15、序列匹配的辨识非最小相位系统的有效方法。对于非线性系统 ,我国学者首次推导出非线性 V o l te r r a 核函数和高阶统计量之间的关系。这种关系从形式上与线性模型一样,但意义完全不同,且线性模型是它的一种特例。对于一类非线性模型即 H am m e r s t e i n 模型 ,已提 出了多种该模型估计线性子系统参数的算法 。这些算法 ,无迭代过程。空间谱估计 将现代谱估计方法用于空间 目标的参数估计 ,常称为空间谱估计。空间谱估计所估计的参数为信号的空间频率。空间谱估计具有高精度和超高分辨率的性能 ,在无线电4电 信 科 学 1”3 年测向方面有广阔的应用前景。 1 9 7 9 年
16、 R.0.S c h m i d t提出了 M U S I c (M ul t i p l e si g n al Ch a r a e -t e r i z a t i on ) 方法,开拓了空间谱分析的序幕。它利用空间相关矩阵作特征分解 ,来确定信号子空间 ,然后利用信号子空间的正交特性确定信号的方向参数,从而可以实现信号源之间的分离。由于 MU S I C 方法仅适用于非相干信号源,对于有相干源存在的情况,1 9 8 1 年 J.E.E v a n s 等人提出空间平滑法,经过空间平滑后的阵列信号按照 MU s I C 方法就可以估计出相干源的方向参数,但这种方法是以损失阵列的有效孔径为
17、代价.我国学者在 1 98 8 年提出大量实验证明:一种以 MU SI C 为基础的特征值分解一奇异值分解法 ( E V D 一 S V D ),利用此法比空间平滑法有更好的分辨率和信号方向估计性能 ,更重要的是我国学者所提方法是在广义信号子空间概念上建立的,能更清楚地揭示提高分辨率的关键所在。除此之外 ,在任意几何排列阵列对相干信号源的测向,在短数据、低信噪比时的测向以及阵元位置误差与阵元间互报对测向性能的影响等问题也进行了深入的研究,提出了有效的解决方法 。另一种具有很高运算效率的空间谱分析方法 ,于 1 9 8 5 年由 T.K a i l a t h 等人提出。该法称为 E S p R
18、 IT (E s tim a tio n of 5 1 9 : iar a m e te r s v i aR o ta t i o nI nv a r ia n tT e eh n 叫 u e )方法。它同样也不适用于相干信号源 ,亦不能用于二维参数估计。我国学者近来对 E S PR IT 方法作了发展,把它推广到相干源的估计和二维的参数估计,提出了 ZD c A 一 Es P R I T (2 一 m e no i o na lC om b i ne d A r r a y 一 E SP R IT ) 方法,这种方法所费的时间仅为一维 E s P R I T 方法的两倍 ,同样具有高时效的
19、优点,同时分辨率比二维 M U s I C 方法更高。此外在宽带信号的测向、相关信源的自适应特征子空间算法等方面也做了很多工作。 自适应滩波算法 信号处理的另一个活跃领域是自适应滤波。因为信号采集过程中都伴随着噪声 ,因而滤波是必需的。维纳撼波和卡尔曼滤波都要求对信号及噪声的统计知识有一定的先验了解。而 自适应滤波却不需这些知识,自适应滤波在 1 9 6 7 年由 B.W id r o w 提出后,一直发展很快。 B.W idr o w 的 L MS 法是根据最优方法中的最速下降法提出的,它是通过橄向滤波器来实现的。之后在 1 9 8 0 年前后 ,J.1.Ma k h o u l 提出了模型
20、 自适应撼波 ,M .MQ r f 及 B .F r e L a nd e r 研究了递归型自适应数字撼波及最小二乘递归格式滤彼等。在国内对 自适应滤波算法进行了广泛的研究。在平方根递归最小二乘 自适应均衡方面,提出了一种分数间隔平方根 R L S 判决反馈算法 ,该算法 比普通 R LS 算法(如加速卡尔曼,斜格算法)有较好的数值稳定性 。对 J.M .C i off i 及 T.K a i l a t h 提出的非归一化 FT F (Fa s t T r a n s v e r s al Fil t e r)算法在有限精度数字实现时的数值不稳定性 ,提出了一种改进的措施,并给出了相应算法。
21、我国学者在超稳定自适应递归滤波方面,提出了符号超毯定 自适应滤波 ,使算法的计算量大大减少.我国学者还证明了,当信息矢量的内积同原 A R M A 模型的 A R 部分所构成的线性时变系统严格无关时 ,不需要严格的 SPR 条件,算法就能一致收敛 数字滚波器 数字滤波器是信号处理技术的重要组成部分 常规的设计方法已经编入已出版的数字信号处理程序库和 近代数字信号处理通用程序 等书,同时引进的一些程序库 ,都已广泛地应用于实际工作。近几年在数字滤波器研究中也有很多进展。在研究 l l R 滤波器的极限环振荡时 ,我国学者提出一种以有限状态机表示抑止极限环振荡的方法。在滤波器组设计方面,提出了利用
22、全通滤波器组成多相网络 ,并实现了话带撼波器组 ,用于 FD M 一 T D M 数字转换系统 。在滤波器组的实现方面曾提出了用多速率格形浪数字滤波组开关电容的实现方案。非线性滤波技术在国内也有明显的成果 ,各种类型的近代非线性滤波方法均有实验结果。一种新的二维 Le a p f r o g 滤波器的设计方法可以不受各种非线性的影响,这种滤波是由 L C 格形滤波器的二维双线性变换实现的,并且具有很低的灵敏度。同时二维数字滤波器的稳定性判定方面,提出了一种新的定理 ,使用非常方便。三维数字滤波器的稳定性判定是一个困难的问题 ,国内学者提出了第二类非本征奇异值的三维数字滤波器的稳定性充分必要条件
23、。2 应用领域国内语声处理技术已有 3 0 多年的历史 积累了丰富的研 究经验 七五 和“八五”期间是一个由理论研究走向实用的决定性的时刻。( a ) 语声处理 ,首先在语音编码领域 ,在此期间国际 CC I T T 等组织相应对各种码率的编码技术均制订了标准 。编码分为 6 4 k b /s 、3 2 kb /s 、1 6k b /s 、skb /s 、4.sk b /s 、2.4 k b /s 六种 ,以满足不同的应用领域。由于高速信号处理器的发展,不同编码速率的编解码器大都可以容纳在一块 D S P 芯片内执行实时的操作。因而编码不仅停 留在算法的研究上,而且可以实用于一些如移动数字无线
24、电话中。 “七五”期间,3 2 k b 八 的 A DP c M 技术已经满足了 CC I T T 的要求,而且研究完成了多路复用终端 ,可试用于交换网中,使话路数目增加一倍。1 6 k b /s 的多脉冲激励线性预测编码 M PL PC 已经经过多次改进算法 ,并且装入在一片 T M S 3 2 0 C 2 5 的 D S P 芯片 ,可以试用于数字无线电话系统,音质达到长话的要求。多种新型的语音重建编码 ,如码激励线性预测 ( C E 一 L PC )正弦模式语音编码 ,子带编码 ,变换编码等中速率编码均得到了研究结果 ,音质一般还比较满意,编码速率分别 1 6 k b /s ,8k b
25、/s ,正在达到实用的程度。在 4.skb /s ,2.4 k b /s 低速编码方面我国学者在改进原有 LPC 音质的同时 ,试验了多种新的编码。利用正弦编码 ,多脉冲编码(MPLP C )均可以在 4.s k b /s 时得到 比较好的音质 ,C E LP C 方式是很有竟争力的一种 ,但算法过于复杂 ,一般要求有 2 6M FLO P 运算速率 ,需要两片 T MS 3 20 C 2 5 才能实现,目前国内还处于研究改进之中。在 2.4 k b /s 低速编码方面我国学者提出了一种 M S L p C (Mul t i 一 S e q u e n e eE x eited Lp C )
26、多序列线性预测方案,他们报导了 4.8k b /s 的 4 一 MS LP C 及 2.4 k b /s 的 2 一 M SLP C 方案均得到 良好的音质 。一种以 2.4 k b /s 码率的 H QL SP (混合量化线谱对)声码器方案,采用两片 T MS 3 2 o 2 0 可实现双工通话。语音识别及合成是语声处理的另一重要分支.这方面的工作是非常突出的。语音识别技术的进展有三大特点 ,即:(l ) 由模拟算法到实时实现 ,( 2 )从小词量特定人到大词量非特定人的进步;(3 ) 由单词识别走向句子理解。在 1 9 8 6 年前后 ,国际间常用的一些语音识别算法如 LP C 参数提取
27、,C EP 参数提取 ,V Q 矢量量化技术,D T W 动态时间转折 ,H MM (隐马尔柯夫模型) 以及 LS P 线谱对参数等 ,都分别在各大学研究室中得到实现,但由于计算机速率及容量(一般仅 PC / X T 水平 ) 的限制 ,都不能实时实现。目前,由于微机速度容量迅速增长 (进入 PC /A T 2 8 6 ,3 8 6 ,4 8 6,外存 由 loM byt e 增加到 Zo oMbyt e)以及 T M S 3 2 o 系列接板的推广 ,小词量以至中等词量 ,甚至全音节的汉语语音识别系统已经有多处实现 ,并进入商品化市场 。尽管研制的方法 已经很多 ,可是 3 2 0 系列的汇
28、编级语言还没有公共的子程序库 ,都是各单位 自行研制。( b ) 在国家科技项 目的支持下,大词量( 约几千词到二万词)和非特定人的识别研究亦 已开始 ,特定人 2 0 0 0 0 词表的识别系统亦已研制成功。在非特定人识别方面 ,目前尚处于小词表范围,对十个数字或地名的识别率可达到 9 5 % 9 8 % ,利用 H MM 研究非特定人识别亦有进展,用 A N N 人工神经元网络对汉语声母、四声的识别都得到了很好的结果。现在正在一方面完善全音节汉字语音的识别 ,另一方面从音家识别着手 ,解决大词量和非特定人的间题 。( c ) 基于语音识别的单词识别率一般徘徊在 9 0 % ”% 之间 ,要
29、想使识别技术尽早实用化,人们只能从智能化的角度来借鉴。至今已有几家研究单位开始研究汉语语音理解工作。他们把语句组成的句法知识 ,以及有限目标任务的语句语义关系,采用人工智能的方法 ,作成知识库 ,在识别的过程中,或在识别的过程之后,加人知识库的知识,修正识别结果 ,达到汉语理解的目的。这方面一种能自动收集启动性知识的理解系统 A LL A 已经实验成功。另外作为火车售票的语音对话系统也 已做了试验。作为机场英汉自动售票用的翻译识别系统也可以进行实验表演。这方面工作与国际间差距 已经缩短。在利用大型机进行汉语研究工作方面差距比较大。语音合成已开始实用,各种小词量合成器 ,重放机,报站机,语音报替
30、器等已被采用。自然语言合成正在研究之中,可望在近期内达到实用化.文语转换也有了进展。二: 统计信号处理统计信号处理的发展:在各种各样的实际通道中,所传输的随机信号往往受到信道噪声的影响,带来了很复杂的随机性,而信道本身的传输特性也经常具有时变性,如果人们用经典的信号分析方法来观察和分析各类通信问题总会带来很大的误差,对提高传输质量和通信效率都非常不利,甚至无法进行正常通信。自从本世纪四十年代开始,不少专家努力探索有概率与数理统计的方法来分析和研究通信问题,开始建立近代通信技术的基础,例如著名的通信理论专家 C.E.Shanon 研究信道容量和编码理论问题,D.Middleton 和 Y.W.L
31、.ee 研究最佳接收理论问题,苏联学者提出潜在抗干扰理论,美国学者 J.C.Hancock 建立比较完整的统计通信原理等。他们都是运用科学的数理统计理论来研究和解决信号传输和通信系统中某些最重要的问题,他们的研究成果对发展通信理论作出了内重要的贡献,在广大通信工作者前展示了一副光辉夺目的前景。六十年代中期,数理统计理论在雷达声纳等相关学科领域内也得到了广泛应用,并建立起信号检测理论,受到通信和控制专家的极大重视。随着数字通信的崛起,信号检测理论和方法立即在通信系统内得到应用,使通信理论又上一个新台阶。这个时期最有代表性的著作就是 H.L.Van Trees 的“检测,估值和调制理论” ,他将信
32、号检测的概念开拓到估值,滤波调制解调的范围内,将数字通信和模拟通信中的主要理论问题都可以用统一的数理统计理论和方法研究,并取得了满意的结果。七十年代以后通信理论又有了新的发展,这是与信号处理技术的兴起密不可分的有人将统计通信称之为统计信号处理是非常恰当的。因为无论是调制解调,编码和滤波或者检测估值都可以看作是某种特定的信号处理,并且它们都是采用数理统计的理论和方法来研究这些问题。事实上,与通信科学相关的雷达,声纳,导航,遥控遥测,甚至地震,气象,生物医学等学科也都可以用统计信号处理的理论和技术来分析和研究问题。统计信号处理的任务:1. 信号检测:就是在信号传输过程中检测信号是否存在,因此也可以
33、是信号状态的检测。2. 信号估值:在应用系统中不仅要知道信号的状态,而且还要知道信号的参数,因此这是进一步的信号检测也可以称为广义的信号检测。3. 信号滤波:在实际传输信道中信号和各种干扰总是同时存在的,因此要用数理统计的方法来排除干扰,或者提高信噪比,这就是统计滤波的任务。它与传统的滤波方法有很大的区别,这里需要考虑信号与干扰各自的统计特性和它们之间的相关性,由此因此引出相关检测,相关接收等概念。统计信号处理中的数学方法:1. 概率与数理统计2. 随机过程理论3. 时间序列分析4. 状态空间分析5. 矩阵代数统计信号处理的应用领域:1. 现代通信,如高速数据通信,多媒体通信等;2. 现代控制
34、,如工业过程控制,机器人等;3. 雷达声纳等军用和民用领域;4. 地震,气象,水文预报等;三: 语音识别语音识别技术的最终目标是要让计算机能与人自由交谈。目前, 连续语音识别技术正趋于成熟,语音识别也延伸出了诸多实用化的研究方向。今后, 语音识别的重点将集中在自然话语识别与理解、 实时语音识别和语音识别鲁棒性等方面。作为一门交叉学科, 语音识别所涉及到的技术有信号处理、 模式识别、 概率论和信息论、 发声机理、听觉机理和人工智能等。1. 语音识别的发展历史语音识别的研究工作开始于 50 年代, 当时 AT在语言学层次 ,以大规模语料库为基础,通过统计两个邻词或三个邻词之间的相关性,可以有效地区
35、分同音词和由于识别带来的近音词的模糊性。另外再结合高效、 快捷的的搜索算法,就可以实现实时的连续语音识别系统。90 年代之后,语音识别与自然语言处理相结合,发展到基于自然口语识别和理解的人机对话系统与机器翻译技术相结合, 逐步发展出面向不同语种人类之间交流的直接语音翻译技术。我国的语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入/ 8630 计划, 由中科院声学所、自动化所及北京大学等单位组织研究开发。目前, 国内也涌现出了诸如科大讯飞和北京捷通等专业研究和开发语音识别产品的高科技公司。2. 语音识别系统及其分类语音识别系统根据对说话人说话方式的要求,可以分为孤立
36、字(词) 语音识别系统、 连接字语音识别系统和连续语音识别系统; 根据对说话人的依赖程度,可以分为特定人和非特定人语音识别系统; 根据词汇量大小, 可以分为小词汇量、 中等词汇量、 大词汇量以及无限词汇量语音识别系统。不同的语音识别系统, 虽然具体实现细节有所不同,但所采用的基本技术相似。一个典型的语音识别系统除了要选取适当的语音识别单元之外,还需要特征参数提取、 系统建模、 模型训练和模式匹配这三方面的技术。语音识别系统也可以分成一个前端和一个后端。其中,前端处理音频流,从而分隔可能发声的声音片段, 并将它们转换成一系列能够表示的数值。后端是一个专用的搜索引擎, 它获取前端产生的输出并跨以下
37、三个数据库进行搜索:一个发音模型、 一个语言模型和一个词典。发音模型表示一种语言的发音声音,可通过训练来识别某个特定用户的语音模式和发音环境的特征。语言模型表示一种语言的单词如何合并。词典列出该语言的大量单词, 以及关于每个单词如何发音的信息。3. 语音识别单元选择识别单元是语音识别研究的第一步。语音识别单元有单词( 句)、 音节和音素三种,具体选择哪一种,由具体的研究任务决定。单词单元广泛应用于中小词汇语音识别系统, 但不适合大词汇系统, 原因在于模型库太庞大,训练模型任务繁重, 模型匹配算法复杂,难以满足实时性要求。音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言, 而英语是多音
38、节,并且汉语虽然有大约 1300 个音节, 但若不考虑声调, 约有 408 个无调音节, 数量相对较少。因此, 对于中、 大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。音素单元以前多见于英语语音识别的研究中,但目前也越来越多地被中大词汇量汉语语音识别系统所采用。原因在于汉语音节仅由声母(包括零声母有 22 个) 和韵母( 共有 28 个) 构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母, 这样虽然增加了模型数目, 但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。4. 语音特征参数提取声学特
39、征的选择与提取是语音识别的第一个重要环节。这个环节既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分识别边界。由于语音信号的时变特性和非平稳特性, 特征参数的提取不能在识别单元上直接进行, 而必须把识别单元分割为许多更短一些的语音段( 10 毫秒到 40 毫秒之间 ) , 这些短段被认为是平稳的, 称之为帧。然后再分配在每个帧上进行信号分析,这就是语音的短时分析。为了克服唇辐射带来的高频跌落和帧的截断效应, 通常还要在分析前对帧信号进行预加重和加汉明窗处理。对语音进行连续分析时,帧与帧之间的偏移通常取帧长的 1/ 2 或 1/ 3。这些过程有时被称为语音信号的预
40、处理。特征提取就是要从语音波形中提取出重要的反映语音特征的相关信息,而去掉那些相对无关的信息, 如背景噪声、 信道失真等 ,并把这些信息转换为一组离散的参数矢量。目前常用的特征参数有下面两种。( 1)线性预测系数:线性预测分析从人的发声机理入手,在声道短管级联模型的基础上,进一步得出了传递函数符合全极点数字滤波器形式的语音数字模型。LPC 的基本思想是, 当前时刻的信号可以用若干个历史时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小, 即可得到一组线性预测系数。求解 LPC 系数可以采用自相关法 ( 德宾 durbin 法) 、 协方差法、格型法等快速算法。
41、LPC 系数在语音识别中的应用相当广泛。与 LPC 相关联的声学特征还有线谱对 LSP、 反射系数等。 ( 2)倒谱系数: 利用同态处理方法,对语音信号求离散傅立叶变换后取对数, 再求反变换就可得到倒谱系数。其中, LPC 倒谱( LPCCEP)是建立在 LPC 谱上的。而 MEL 倒谱系数(MFCC) 则是基于 MEL 谱的。不同于 LPC 等通过对人的发声机理的研究而得到的声学特征, MFCC 是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现, 当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频
42、率差小于临界带宽时,人就会把两个音调听成一个, 这称之为屏蔽效应。MEL 刻度就是对这一临界带宽的度量方法之一。MFCC 算法首先用 FFT 将时域信号转化成频域,之后对其对数能量谱用依照 MEL 刻度分布的三角滤波器组进行卷积, 最后对各个滤波器的输出构成的向量进行离散余弦变换 DCT,并取前 N 个系数作为 MFCC 参数。5. 语音识别模型语音识别系统模型通常由声学模型和语言模型两部分组成。声学模型能否真实地反映话音的物理变化规律, 语言模型能否表达自然语言所包含的丰富语言学知识, 是语音识别系统性能好坏的关键。然而语音信号和自然语言都是随机多变和不稳定的,这是目前语音识别中最大的难点。
43、声学模型是识别系统的底层模型,其目的是提供一种计算语音的特征矢量序列和每个发音模板之间距离的方法。人的发音在每一时刻都受到其前后发音的影响, 为了模仿自然连续语音中协同发音作用和鉴别这些不同发音, 通常要求使用复杂的声学模型。声学模型的设计和语言发音特点密切相关。声学模型单元大小( 字发音模型、 半音节模型或音素模型) 对语音训练数据量大小、 系统识别率、 以及灵活性有较大的影响。对大词汇量语音识别系统来说,通常识别单元小,则计算量也小,所需的模型存储量也小,要求的训练数据量也少。但带来的问题是对应语音段的定位和分割较困难,识别模型规则也变得更复杂。通常大的识别单元在模型中包括协同发音, 这有
44、利于提高系统的识别率,但要求的训练数据相对增加。因此,识别单元的大小应根据语言的特点、 识别系统词汇量的大小而定。主要的语音识别分类方法有如下 4 种。样本匹配法: 即把特征分析提取的一组随时间而变的特征矢量序列和事先通过学习后存在机器里的样本序列进行比较。输入特征矢量序列和存储的样本通过一定失真准则比较后即可找到和输出特征矢量序列最接近的样本序列,由于人说话的速度有快有慢, 因此动态时间规正方法( D TW) 是样本匹配法成功的关键。多样本及识别语法网络也能与 DTW 算法相结合,这有利于改进样本匹配法的识别能力。目前样本匹配法主要用于特定人孤立词语音识别系统中。以知识准则为基础的判决系统:
45、它利用人们从分析语谱图、 频谱形状过渡以及一些特征的知识建立的一系列判决准则, 把专家系统的方法用于识别过程中, 根据这些判决准则以确定所表示的语言内容。然而到今天为止, 这种专家系统还不能和模式匹配的技术相竞争, 其困难在于很难建立起一个可广泛应用的准则。HMM 声学建模: HMM 是到目前为止已有的最强有力的语音识别算法。对语音识别系统而言,HMM 的输出值通常就是各个帧的声学特征。为了降低模型的复杂度, 通常 HMM 模型有两个假设前提, 一是内部状态的转移只与上一状态有关,一是输出值只与当前状态或当前状态转移有关。除了这两个假设外, HMM 模型还存在着一些理论上的假设,其中之一就是,
46、它假设语音是一个严格的马尔科夫过程。我们通常用从左向右的单向的、 带自环的、带跨越的 HMM 拓扑结构来对识别基元建模。例如,一个音素对应一个三至五状态的 HMM, 一个词对应于构成该词的多个音素的 HMM 串, 而连续语音则对应于词和静音组合起来的HMM 串。神经网络:神经网络也被广泛应用于语音模型中。其中最有效一种方法是使用多层神经网络,不同层之间的神经元通过一定的加权系数相互连接,这些加权系数可以在训练中进行学习。6. 语言模型语言模型对中、 大词汇量的语音识别系统特别重要。当分类发生错误时,可以根据语言学模型、 语法结构、 语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确
47、定词义。语言学理论包括发音学、 音韵学、 语义结构、 语言的数学描述模型等。把语言模型应用于语音识别中要解决两个问题: 一是能够用数学模型来描述语言中词的语言结构; 二是在给定这样一种结构的基础上,如何把它和模式识别器结合找出一种有效的识别算法。目前比较成功的语言模型通常是采用统计语法的语言模型, 如二元文法( Bigram) 和三元文法( Trigram) , 或者基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少识别系统搜索空间,因而有利于提高系统的识别率。语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律, 其中
48、n- gram 简单有效,被广泛使用。n- gram 模型基于这样一种假设 ,第 n 个词的出现只与前面 n- 1 个词相关 , 而与其它任何词都不相关, 整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计 n 个词同时出现的次数得到。7. 模型训练和模式匹配总体上说, 语音识别是一个模式识别匹配的过程。在这个过程中, 计算机首先要根据人的语音特点建立语音模型, 对输入的语音信号进行分析 ,并抽取所需的特征,在此基础上建立语音识别所需的模板。然后, 在识别过程中,计算机根据语音识别的整体模型, 将计算机中已经存有的语音模板与输入语音信号的特征进行比较, 并根据一定的搜索和匹配
49、策略找出一系列最优的与输入语音匹配的模板。最后通过查表和判决算法给出识别结果。显然, 识别结果与语音特征的选择、 语音模型和语言模型的好坏、 模板是否准确等都有直接的关系。模型训练就是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是按照一定准则, 使未知模式与模型库中的某一个模型获得最佳匹配。语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术( DTW)、 隐马尔可夫模型(HMM)和人工神经元网络(ANN) 。 DTW 是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题, 在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统, 目前已被HMM 模型和 ANN 替代。 HMM 模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的( 不可观测的) 具有有限状态的马尔可夫链,另一个是与马尔可夫链的每一状态相关联的观察矢量的随机过程(可观测的) 。隐马尔可夫链的特征要靠可观测到的信号特征揭示。这样, 语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述, 而信号随时间的变化由隐马尔可夫链的转移概率描述。模型参数包括