语种识别.doc-道客多多_道客多多docduoduo.com

资源描述

1、概述语音的自动语言辨识技术(Language IDentification,LID)就是计算机能够识别出语音段所属的语言的过程.它是从语音信号中自动提取信息的几个过程之一.语言辨识技术可以处理不同的数据(例如:文本,语音) ,但是这里只讨论语音数据处理 . 语言辨识在信息检索和军事领域都有很重要的应用,包括自动转换服务/多语言信息补偿等.在信息服务方面,很多信息查询系统可提供多语言服务,但一开始系统必须以多种语言提示用户选择语言,语言辨识系统确定用户的语言种类后,提供相应语种的服务.这类典型服务的例子包括旅游信息,应急服务,以及购物和银行,股票交易.例如 AT这些差别与每个民族的文

2、化差异具有一定的联系,每种语言都具有自身的语法规则和句型模式,此外也可以通过形态学上的相似性对语言分类. 1. 词法,从概念上讲,不同语言之间的最大差别在于它们各自使用不同的词汇集,也就是说,它们的词汇是有差别的.不同语言的词根和词素通常也不同,每种语言都有自己的词汇表和自己的构词方式.一个不是以英语为母语的人在说英语时,很可能使用自己母语中的音素,韵律模式甚至相近的音素配位规则.但是,如果讲话所用的词汇是英语的,则仍然会被判断为在讲英语. 2. 句法,不同语言的句子模式不同,即使两个句子同时含有一个词,例如英语和德语中同时具有一个词“bin“但这个词前后的词可能不同. 16.3

3、针对自动语言辨识的知觉研究人能够从很短的一段语音片断中获取一些不同的信息来辨识语言的种类.人们试图自动实现这些能力,因此必须研究人是如何完成语言辨识的. 对人的语言辨识性能进行规模和较为系统的研究是用 OGI 最初 10 个语种的数据库中流畅语音的 1 秒,2 秒,4 秒和 6 秒的语音片断进行的一系列知觉试验4.这些实验使用一种交互式的图形界面,从 10 种语言中随机地回放一段语音讲话,同时记录受试人的响应.每次测试时给受试人一个反馈,使受试人在试验过程中始终处于被训练状态.在受试人每做出一种选择之后,还要播放一段有助于学习过程的语音 . 100 99.6 100 后四分之一前

4、四分之一 82.6 83.1 79.9 74.7 79.6 74.4 65.4 62.3 54.1 79 80 60 62.4 57.6 47.8 43 55.9 46.8 39.2 30.5 0 20 正确率% 40 英语波斯语法语德语日语朝鲜语汉语西班牙语泰米尔语越南语语言种类图 16.3.1 知觉研究第一组实验检验只讲英语的受试人的听觉性能.第二组实验使用两倍于第一组的语音选 3 段和受试人,但这些受试人是以这十种语言为母语的.参加第二轮实验的受试人要求在实验后接受访问,以便确定他们在实验中使用的和逐步培养起来的用于区别这些语言的线索. 在整

5、个实验过程中, 受试人仅仅利用 6 秒钟长的语音片断就能够以 39.2%到 100%的准确度(平均准确度 69.4%)辨识这 10 种语言 .图 16.3.1 给出了第二轮实验中所有受试人对前四分之一和最后四分之一的语音片断的平均性能. 实验结束后在受试人对访问的反应中还获得了一些有关人学习辨识各种语言的方式的有用的信息.他们似乎利用了“命中 “音素与“命中“ 词相结合的策略和韵律线索. 实验的结果还表明,增加受试人对每种语言的探究和训练的时间能够提高分类性能.平均看来,对多种语言比较熟悉的受试者与仅了解一种语言的受试者相比,前者趋向于达到更好的语言辨识水平.受试人好像随着实验的进行

6、学会了培养他们自己的辨识线索. 尽管这些实验提供了非常有意义的结果,但是大量受试人和大量语言种类的混合使得寻求受试人可能用于辨识两种完全不熟悉的语言的线索变得很困难.另一个重要的但在这些实验中又没有涉及到的问题是,受试人利用实验过程提供的声学样本以外的其它途径获取语言信息的能力.例如,受试人或为其提供语言之间的显著差异的先验信息的受试人是如何从语言语音学中得到训练的?许多诸如这样的有趣问题尚待解决. 16.4 语言辨识的主要方法系统的变化随语言模型建立的方法的改变而改变.在以语言辨识系统越来越复杂为代价的条件下, 从语音中提取的不同特征产生了大量的知识. 根据语言辨识系统利用信息的

7、不同, 语言辨识方法可以分为下面几类. 16.4.1 频谱相似性方法在早期的自动 LID 系统中,开发人员主要利用不同语言的频谱差别,和不同语言的语音含有不同的音素作为辨识的依据.为了对系统进行训练,从训练语音中计算和提取一系列短时频谱.在识别的过程中,计算测试信号的频谱并且与训练的原型相比较.与测试语音频谱匹配最好的语言就假定为测试语音的语言种类.在这种频谱相似性方案中,还有一些变化. 训练和测试频谱直接用作为特征向量,或以此计算基于共振峰特征向量或者倒谱特征向量. 训练样本直接从训练语音中选取,或者利用 K-均值聚类算法合成.以欧式距离 ,Mahalanobis 或者其它的距离矩阵

8、计算频谱相似性,基于频谱相似性的 LID 系统主要有基于矢量量化,基于遍历 HMM 模型和基于说话人相似性等方法. 16.4.2 基于韵律信息的方法含有韵律信息的特征向量也可作为自动语言辨识系统的输入.这种方法是有根据的,研究表明人可以利用韵律特征来识别语音信号的语言种类4,6,Itahashi 等人7-8利用基于基音检测的特征建立了系统,他们认为基音检测在噪声环境下比频谱参数更具鲁棒性. 然而,Hazen 指出9,当与基于音素参数的系统相比较时,从韵律信息中提取的参数只能提供很小的语言差异.利用韵律和音素两种参数的系统的性能几乎和只使用音素参数的系统的性能相同 . Thyme-G

9、obbel 和 Hutchins 也研究了利用韵律信息进行语言辨识的能力10,在整合利用韵律信息方面相当成功.首先将一段语音按幅度信息和基音信息分割成音节,接着根据节奏和声调特性计算各种不同的统计量,如以音节为单位提取基音和幅度轮廓.与节奏有关的信息按照音节时长和幅度模式进行封装.声调信息按照基音的短语特征和它的音节特征进行封装.最后,用几种度量来描述基音和幅度之间的相关性.仅利用韵律特征,就获得了较好的效果.尤其是韵律信息在将一种语言同另一种语言区分时更为有效. 4 16.4.3 基于音素识别的方法由于不同的语言具有不同的音素表, 因此很多研究人员已经建立了基于音素的 LID 系

10、统, 假设音素是时间的函数,而且在统计音素序列的基础上确定语言的种类.例如,Lamel 建立了两个基于 HMM 的音素识别器:一个是英语的,另一个是法语的11.这些音素识别器对英语或者法语的测试语音进行检测.Lamel 发现,从语言有关的音素识别器中得到的概率分数可以用来确定英语和法语语音.Muthusamy 也在英语和日语即席电话话音上进行了相似系统的实验12. 这些基于音素的系统,其新颖性在于将更多信息引入 LID 系统.Lamel 和 Muthusamy 在多语言的音素标记的语料库上训练了自己的系统.由于对于每种语言,系统都需要大量的音素标记的训练语音,与不需要这种音素标记的

11、基于频谱相似性系统相比,这类系统很难将新的语言引入该识别过程. 为了使基于音素识别的 LID 系统便于训练 ,可以用一个单语言的音素识别器作为系统的前端,该系统利用音素配位分数进行语言辨识.音素配位是语言自身的约束,指定某些音素只允许跟随其它特定音素,利用文本文件的 N-元文法分析进行语言辨识.Hazen 和 Zue9, 以及 Zissman 和 Singer13每个人都开发了一个 LID 系统,他们都采用一个单语言的前端音素识别器.这些研究人员的一个重要发现就是即使前端识别器不用所需要识别的语言进行训练也可以完成很好的性能.例如,精确的西班牙和日语 LID 系统可以通过只使用一个英

12、语识别器来实现.Zissman 和 Singer13-14以及 Yan 和 Barnard15将他们的研究工作扩展到系统具有多个单语言的前端.图 16.4.1 给出了这种类型系统的一个例子 . 波斯语模型英语音素识别器概率分数法语模型泰米尔模型日语音素波斯语模型法语模型泰米尔模型声学处理输入语音日语音素识别器判别器识别语言西班牙语音素西班牙语音素识别器波斯语模型法语模型泰米尔模型图 16.4.1 基于音素识别器的 LID 系统 16.4.4 基于多语言语音单元的方法与上面方法相对应,可以建立多语言语音单元来进行语言辨识,而不是每种语言都

13、训练一个音素识别器.多语言语音单元可以采用语言相关音素和语言无关音素的混合模型,或者通过自动地从训练数据中提取某种单元来实现.这种方法的优势在于在多语言的音素间进行数据共享和区分性训练,易于扩展到其它语言16(未经训练的语言) . 关于多语言语音单元的研究也仅仅集中在识别和处理那些含有大部分语言差别信息的音素上17.与语言有关的音素称为“ 单音素“或“主音素“ ,Kwan 和 Hirose18以及 Dalsgaard 和 Andersen19在系统中利用语言特有的和与语言无关的音素进行识别.与语言无关的音素称为 “多音素“ 可以利用多种语言的数据进行训练, , 而不降低识别的精度.

14、Berkling 和 Barnard17 以及 Koehler20-21等人的语言辨识系统中都采用了一个多语言的前端音素识别器, 该识别器是多音素和单音素的混合模型 . 16.4.5 单词层次方法单词层次的语言辨识系统,介于音素层次系统和大词汇量语音识别层次系统之间,这些系统使用了比音素层次系统的音素配位模型更为复杂的序列模型. Kadambe 和 Hieromymus 提出了语言辨识的词汇模型.输入语音首先经过并行的基于语 5 言的音素识别器的前期处理.假设语言特有的单词可以从最终的音素序列中识别出来. 每种语言的词汇手册包括数以千计的条目,因此语言辨识系统应采用自上至下的方法, 首先

15、识别音素,然后识别单词,最终识别语言.Thomas 等人说明一个基于语言的词汇表不需要预先获得,而是从训练数据自动地学习得到22.Ramesh 和 Roe23,Matrouf 等人24,Lund 和 Gish25以及 Braun 和 Levkowitz26都提出了相似的系统.图 16.4.2 所示为基于词汇模型的语言辨识系统. 图 16.4.2 基于词汇模型的语言辨识系统 16.4.6 基于连续语音识别的方法通过将更多的信息引入系统, 希望系统能获得更好的识别性能. Mendoza27, Schultz28-29, 以及 Hieromymus 和 Kadambe30等人的研究已经表明大词

16、汇量连续语音识别系统可以用来进行语言辨识.在训练过程中,每种语言都产生一个语音识别器.在识别过程中,每个识别器都并行运行,产生最大概率的识别器被选作获胜识别器,用来训练这个识别器的语言就假设为话音的语言类别. 该类系统具有高质量的语言辨识率, 因为系统利用了更高层次的信息 (单词和单词序列)而不是低层次的信息(音素和音素序列)进行 LID 判决.然而,每种待识别语言都需要几个小时的标记训练数据.因此该算法是提出的算法中计算量最复杂的算法. 16.4.7 元音系统模型 (Vowel System Model,VSM) 元音系统的最大优势在于它不需要大量的切割的语料,自动提取特征,以便能

17、够很容易地拓展到其它未标记的语言上.该系统模型仍旧采用分段特征,但是分段特征的获取不是通过预先手工切割语料,而是采用一种“前后向散度算法“ 获得各个子段 31.随后,元音检测算法对每个子段进行判别31,并做以标记,是元音还是辅音.然后在每个元音子段上进行倒谱分析,获得倒谱特征向量.这里的元音模型通过训练 GMM 模型得到.图 16.4.3 为基于元音系统模型的语言辨识系统31. si d i L* ci 图 16.4.3 基于元音系统的语言辨识系统 O = o1 , o 2 ,., oT 为观察向量序列.每个向量 oi 包括一个频谱特征向量 ai , 子段持续时间假设 L = L

18、1 , L2 ,., LN L 为待识别的 N L 种语言 , T 为语音段中的子段个数 , di , 和一个标志 ci , 如果该子段识别为元音 ,则 ci = 1 ,否则, ci = 0 .为了简化起见, y i = a i , d i 且 oi = y i , c i . 给定观察向量 O ,根据贝叶斯理论,最可能的语言 L 定义为 6 * P ( O | Li ) P ( Li ) L* = arg max P ( Li | O ) = arg max = arg max P ( O | Li ) P ( Li ) (16.4.1) P (O ) 1i N

19、 L 1i N L 1i N L 此外,如果语言的先验概率假设是相等的,可以得到下面等式: L* = arg max P ( Li | O ) = arg max P ( O | Li ) 1i N L 1i N L (16.4.2) * 在通常假设的情况下,每个子段相互独立,最终给出对数概率空间内的 L 的表示 T L* = arg max log P ( ok | Li ) 1i N L k =1 (16.4.3) 根据与语言无关的算法判断出所有的元音子段,实现一种基于元音的语言辨识系统.因此对于语言 Li , 利用检测到的元音只训练了元音模型, 因此概率空间内的最可能语言如下式: L*

20、 = arg max log P ( yk | VSi ) 1i N L ck =1 (16.4.4) 实现的过程中,首先利用前后向散度算法对语音进行分段,对每个子段进行语音检测, 去除静音.采用能量累计量对子段检测,判断出该子段是否含有元音.然后进行声学特征分析,并且得到 VSM 模型. 16.5 语言辨识系统举例 16.5.1 基于 GMM-UBM 模型的语言辨识系统32 一,全局背景模型(UBM)33 GMM-UBM 最初成功地应用在说话人确认系统中,训练用来表示说话人无关的特征分布.在语言辨识系统中,GMM-UBM 模型系统是一个语言无关的背景模型,利用除目标语言外的所有训练数据

21、获得一个语言全局背景模型.UBM 模型实际上是一个大型 GMM 模型 . 图 16.5.1 为基于 GMM-UBM 的语言辨识系统框图. 训练英语法语德语 GMM 模型估计获得 UBM 模型参数贝叶斯自适应英语与法语语德语语各种语言模型识别化从 UBM 中获得混合变量计算对数概率选择最大分数识别的语言种类图 16.5.1 GMM-UBM 语言辨识系统给定了训练 UBM 模型的各种语言的数据后,有多种方法可以用来得到最终的模型,最简单的方法是 EM 算法来训练 UBM 模型 .由于训练的是与语言无关的 UBM 模型,每种语言大约需要 1 小时的

22、训练数据,如果系统中所需要识别的语言为 6 种,那么训练 UBM 模型大约需要 6 小时左右的训练数据,训练一个 1024 个混合系数的 GMM 模型. 二,每种语言模型的获得在 GMM-UBM 模型中我们通过贝叶斯自适应算法来获得每种目标语言的模型.贝叶斯自适应方法是通过训练后的 UBM 模型利用自适应来导出每种语言的 GMM 模型.贝叶斯算法的两个步骤具体见 14.7.3 节. 三,对数似然比的计算测试特征向量序列 X 的对数似然比计算如下 7 ( X ) = log p ( X | hyp ) log p ( X | ubm ) (16.5.1) 由于目标语言模型是从 UBM

23、模型中自适应计算得到的,所以对数似然比的计算可以通过快速算法来得到(具体见 14.7.3 节) . 16.5.2 基于最小分类误差准则(MCE)的语言辨识系统34 高斯混合模型是进行说话人无关的语言辨识的一种有效方法,传统的训练方法基于最大似然估计准则(ML) ,ML 准则在训练每种语言的模型时是独立的,仅仅采用该语言的训练数据,而没有考虑到其他语言的训练数据,因此这种方法并不一定导致分类性能最佳化.为了解决这个问题,提出了一种基于最小分类误差准则(Minimum Classification Error Rates) 的模型参数估计算法.这里给出一种基于 GMM 区分性训练方法的语言

24、辨识系统. 这里重点讨论基于 GMM 语言辨识系统的参数集区分性估计算法.每种语言 L j 用参数 j = j 来表示,其中 j 是 GMM 模型的参数,且 j =wj,n , j,n , j,n | n =1,2,., M , j = 1, 2,., J ,注意这里 j 表示第 j 种语言, n 表示混合分量序号.特征参数采用倒谱系数及其差分倒谱.估计模型参数通常基于最大似然准则,该准则在分类过程中并不一定会得到最佳性能.因此这里采用参数估计的一种新方法,该方法基于最小分类误差(MCE)准则 . MCE 准则的最大优点在于训练过程中利用类外信息来改善不同模型之间的区分性. 已知各种语言的

25、语音段集 O = O l =1 ,每个语音段 O (l ) L (l ) 由长度为 T (l ) 的倒谱特征 X (l ) 构成.已知 O ,基于 MCE 准则的模型参数估计就是找到参数集 = 1 , 2 ,., J ,以便使所有语音段的分类误差最小.典型的方法为 GPD 算法(Generalized Probabilistic Descent) , 模型参数在迭代过程中逐步调整,以便最佳表示出训练数据库的统计特性.下面给出基于 GMM 模型的语言辨识系统的 GPD 特定算法的实现34. 计算一系列区分函数 g k (O ( l ) ; ) = log p ( X ( l ) | k ),

26、k = 1, 2,., J 区分函数就是语音段 O (l ) (16.5.2) 在语言模型 k 中的对数概率得分. 1/ 定义每个语音段的类误识测度其中, 是任意正实数,通过改变的值,使得等式(16.5.3) 的右边项涵盖了所有误识类区分函数出现的各种情况 . 计算 MCE 算法的目标函数: 1 M k (O ; ) = g k (O ; ) + log k exp g s (O(l ) ; ) J 1 s,s (l ) (l ) (16.5.3) Lk (O ( l ) ; ) = 1 1+ e M ( O( l ) ; ) + (16.5.4) 其中和为常数 ,一般设为 0,参

27、数控制函数的平滑性,从式(16.5.4) 可以看出,当 M k (O ( l ) ; ) 远小于 0 时,意味着识别的正确,而 M k (O ( l ) ; ) 大于 0,这意味着识别结果是错误的.可见 Lk (O ; ) 是 M k (O ; ) 的单调递增函数,这样目标函数就和系统的识别性 (l ) (l ) 能直接联系到一起 , 目标性能的降低就意味着系统识别性能的改善. MCE 算法训练的过程即对式(16.5.4) 定义的目标函数的优化过程. 为了降低目标函数,采用 GPD 算法来调整 GMM 模型参数 j = w jn , jn , jn n =1 , M 如果将权重 w jn

28、 n =1 ,均值 jn n=1 和方差 jn n =1 都用一般性的符号 j 来表示, j 表示相 M M M 应的调整后的参数,那么参数的调整满足: j = j l =1 k =1 L J Lk (O ( l ) ; ) j 8 (16.5.5) 表示步长,且有 (l ) Lk (O (l ) ; ) Lk (O ( l ) ; ) M k (O (l ) ; ) g j (O ; ) = j M k (O ( l ) ; ) g j (O (l ) ; ) j 根据等式(16.5.2)和(16.5.3),有, (16.5.6) Lk (O ( l ) ; ) = Lk (O ( l )

29、; )1 Lk (O ( l ) ; ) M k (O (l ) ; ) if j = k 1, M k (O ( l ) ; ) (l ) = exp g j (O ; ) , if j k g j (O ( l ) ; ) s,sk exp g s (O ( l ) ; ) 差矩阵 j , n 的正定性,且 (i ) (16.5.7) (16.5.8) 下面将得到每个参数的区分函数的偏导数.此外还需要加一些限制,例如保持协方 n w(ji,)n = 1 .因此在迭代过程中 ,通过下面的参数变换,得到新的对应参数进行参数更新,来保持原来各个参数的原有特性34. 1) w jn w jn 其

30、中 w jn = e m e w jn w jm (16.5.9) 2) 3) jnl jnl = jnl jnl (16.5.10) (16.5.11) T (l ) t =1 jnl jnl = log jnl = = 经过推导,可以得到每个参数的梯度值: g j (O ( l ) ; ) w j ,n g j (O ( l ) ; ) j ,n g j (O ( l ) ; ) w j ,n w j ,n j ,n w j ,n j ,n = p (n | xt( l ) , j ) 1 w j ,n = p (n | xt(l ) , j ) j ,n ( xt jn ) t =1 T

31、 (l ) 1 / 2 (16.5.12) g j (O (l ) ; ) j ,n (16.5.13) g j (O ( l ) ; ) j ,n = g j (O (l ) ; ) j ,n j ,n j ,n = p(n | xt( l ) , j ) j ,n xt( l ) j ,n xt( l ) j , n I 1 T (l ) t =1 (16.5.14) 其中, I 表示 MM 的单位矩阵,且 p ( n | x , j ) 如式(16.5.15)所示.从上面三个等式可以 (l ) t 看出,利用更新前的参数获得每次调整的数据,然后获得更新后的参数. p (n | xt(l

32、) , j ) = w jn N ( xt , jn , jn ) q=1 w jq N ( xt , jq , jq ) M (16.5.15) 16.5.3 基于说话人聚类和高斯混合模型的语言辨识系统35 理想的语言辨识系统是说话人无关的,换句话说,就是无论话者多少,语言辨识系统的性能都是相同的,但通常而言,随着话者的增多,语言辨识系统的性能会下降.因此有必要采取一种粗分类精识别的技术来解决话者对语言辨识系统的影响.下面将采用说话人聚类技术来进行粗分类,然后对每个子类人群建立精确模型,从而达到最佳识别的目的. 说话人聚类的自然方法,可将说话人划分为男性和女性;或者更为细致地划分:老年

33、男性,青年男性,老年女性,青年女性,儿童和嗓音沙哑者等等.然而有些时候单凭声音较难决定其所属类别,或者其嗓音与实际所属的类别相差较大.因此在实际操作中,这种划分常常难以进行.如果能有一种方法,能够将嗓音相似的自动划分到一起,这样无论对语种识别 9 或是说话人识别,都将具有重要意义.无监督聚类算法可以自动将每个说话人的语音按照一定的规则聚集起来.这些语音既可以采用自顶向下的方法(如 K 均值方法)也可以采用自下而上的方法 (聚集法) 对大量的说话人的数据如果采用前一种方法, . 则运算量将会是巨大的. 这里采用后一种方法.进行聚类分析之前,首先要确定类别之间的相似性测度,然后选取一个

34、有效的聚类算法35. 一,相似性测度这里有 N 个说话人的语音段 S = s1 , s2 ,., sN ,其中 si 表示为第 i 个说话人的一系列语音特征矢量. 说话人聚类就是要寻找出一种组合方式 C = c1 , c2 ,., cM , 其中每个 ci 包含有限个 s j , 这些 s j 应该具有相似的嗓音特性, M 为聚类的个数.首先需要定义两个语音特征矢量段之间的相似度.两个等长的语音段之间的相似度可以如下定义:两类之间 X 和 Y 的相似度令 d ( X , Y ) 可以由假设检验的似然比推出. H 0 为 X 和 Y 是属于同一类人的假设,H1 为 X 和 Y 不属于同一

35、类人的假设.令 X = v1 , v2 ,., vr 表示一个说话人的一段语音的特征矢量 , Y = vr +1 , vr + 2 ,., vn 表示另一个说话人的一段语音的特征矢量, = v1 , v2 ,., vn 表示两个说话 Z 人的两段语音特征矢量的合并.并且假定这些特征矢量是独立同分布的,没有时间上的前后联系.令 L ( X : x ) 为 X 的相似度,其中相似度是基于高斯分布的.这里 x 表示 X 中样本的均值和方差的最大似然估计. 同样定义 L Y : y 和 L ( Z : z ) . 相似度 L1 表示 X 和 Y 不是由同一类人产生的

36、, L1 = L ( X : x ) L (Y : y ) .似然度 L0 表示 X 和 Y 是由同一类人产生的, L0 = L ( Z : z ) . L = L ( Z : z ) ( ) 这样似然比 L = L0 / L1 为 L ( X : x ) L (Y : y ) (16.5.16) 相似度的表示通常采用对数形式,这样两个说话人语音之间的相似度 d ( X , Y ) 如下定义: d ( X , Y ) = log ( L ) (16.5.17) 二,高斯混合模型高斯混合模型也是表示说话人特性的一个良好的模型,在说话人辨认中它比单高斯模型更精确.这里我们将公式(16.5.16

37、)的似然比用高斯混合模型来表征.高斯混合模型将语音段用 M 个高斯分布来表征,令N k ( v ) = N ( v : k , k ) 为语音特征矢量 v 在第 k 个上高斯分布,这的计算中,它们的值是固定的.令 g k ( x ) 为由 X 估计的第 k 个高斯成员的权值 .则里 k = 1, 2,., M .每个高斯的均值 k 和方差矩阵 k 是由整个两类数据计算出来的.在下面 X = v1 , v2 ,., vr 的似然度为: L ( X : x ) = gk ( x ) Nk ( v j ) r M (16.5.18) 同样可以计算出 L (Y : y ) . j =1 k =1

38、权值. x = ( g1 ( x ) , g2 ( x ) ,., g K ( x ) ) . 即权值 g k ( x ) 由 X 中的样本 v 所占的比例来估计, 这时, 第 k 个混合的概率 N k ( v ) 最大.这样,混合权值 g k ( z ) 可以由权值 g k ( x ) 和 g k ( y ) 推出,即: r nr gk ( z ) = gk ( x ) + gk ( y ) n n 因为高斯混合模型的均值和方差矩阵是固定的, 则对 X 来讲可以改变的参数就是混合的 (16.5.19) 这样,测度 d ( X , Y ) = log ( L ) 可以由公式(16.5.18

39、)和(16.5.16)来得到. 三,聚类算法 10 定义了两类之间的测度,就可以对其进行聚类了,这里我们采用分级聚类的方法.分级在极端情况下, 聚类是聚类分析的一种. 聚类分析是把 N 个没有类别标志的样本分成若干类, N 个样本分成 N 类,每一个样本自成一类;另一个极端 , N 个样本在一类中.因此我们可以把问题看成是将 N 个样本划分成 C 类的划分序列 .第一级划分是把样本集分成 N 个类, 每个样本自成一类;第二级划分是将样本集分成 N 1 个类等等,直到第 N 级划分时,把样本仅分成一个类.分级聚类划分序列具有如下的性质:在某一级划分时归入同一类的样本, 在后面的划分时,它们

40、永远属于同一类.生物分类就是分级聚类的一个例子.先是把许多个体集合成种,然后种集合成类,类集合成族等. 分级聚类计算两类之间的距离有最小距离,最大距离和平均距离等等.由于采用最小聚类法会导致分级链过长,而与实际情况不符,因此这里采用最大距离法.这样,两类 X 和 Y 之间的最大距离可以表示为: d M ( X , Y ) = max d L ( X , Y ) x X , yY (16.5.20) 用公式(16.5.20)计算所有类之间的距离,并用分级聚类法对其进行聚类,最后得到所需要的类别数,在各个类别中,应该包含着嗓音相近的人. 以英,汉,法三种语言为例,图 16.5.2 用前述方法

41、分别对英语 50 个说话人进行聚类的结果,同样也可以对法语和汉语说话人进行聚类.这样,每种语言大致可聚成 6 个子类( 虚线圈内的为一类 ) .对于每种语言,把每一子类的人作为一个精细模型,将每个子类的说话人全部数据用来训练该子模型. 每种语言的子模型都采用 128 个混合变量的 GMM 模型. 这样, 每种语言用 6 个 128 个混合变量的精细 GMM 模型来表示 .识别时,根据粗分类精识别的思想,先是将测试语音进行粗判别,判断该说话人属于每种语言的哪个子人群,然后用该子类的精细模型对测试语音进行语言种类的判别. 图 16.5.2 英语 50 个说话人的聚类结果分布图 16.5.

42、4 基于时频主分量分析(TFPC)和高斯混合模型的语言辨识系统36 时频主分量分析简称 TFPC.TFPC 方法是通过利用与语言有关的语音参数,更易于进行语言辨识.与通常的声学特征参数相比而言,TFPC 参数是利用一个与语言有关的时频滤波器,将语音的倒谱序列进行滤波,得到时频滤波后的参数,即 TFPC 参数. TFPC 参数的获取在训练阶段和识别阶段是不同的.在训练阶段,先对训练数据的某种倒谱序列(如 LPCC,MFCC,ASCC)进行主分量分析,主分量分析应用在特征向量序列, 这样不仅考虑了静态信息,也考虑了丰富的动态信息.因此获得一个与语言有关的投影矩阵 (也称为滤波矩阵) .然后利

43、用滤波向量特征作为新的特征参量来估计语言 i 的统计模型 ( i ) ,滤波器与训练语音的语言种类相对应. 图 16.5.3 给出了语言 i 的训练阶段.训练语音经过声学分析后,转换成 p 维向量序列 11 xt (i ) .利用该矢量序列计算滤波器矩阵 H (i ) .在滤波器矩阵建立后,对矢量序列 xt (i ) 进 (i ) 行滤波, 就得到一个新的 r 维矢量序列 f t , 语音 (i ) x (i ) 并以此来估计语言 i 的模型 (i ) ft (i ) .矢量序列信号就是利用时频滤波器获得的新的参数序声学分析 t 滤波器估计 H 列. H (i ) (1) 滤波器的建

44、立 xt (i ) ft ( i ) 语言 i (i ) 给定语言和相应的训练数据,TFPC 方法滤波模型提取的特征可以建立在语言特征子空间上,使图 16.5.3 训练: 利用 TFPC 参数进行语言辨识得不同语言的差别信息区分更为明显.其基本思想就是增强了语言特有的静态信息和存在于声学特征中的可以表征语言的动态信息36.为了获得动态信息,考虑了每个向量的时间前后关系 . 滤波器建立的步骤如下:xt 表示从训练语音中提取的 p 维特征向量序列.从该序列中 t +q t +q : 可以提取扩展向量 X t q (利用当前帧以及前后的各 q 帧按照(16.5.21)式得到 X t q

45、 ) + X tt qq xt*+ q = xt* , xt* = ( xt x ) x* t q (16.5.21) 然后计算扩展向量的协方差矩阵 (前后关系协方差矩阵) 该矩阵可以通过计算滞后协方差矩 , 阵 Rk 来得到. Rk = 其中, x = 1 T 1 ( xt x )( xt k x )T , T t =k + k = 0,1, 2,., 2 q (16.5.22) 1 T xt , T = 2q + 1 . T t =1 滞后协方差矩阵的个数等于 TFPC 分析的阶数.将滞后协方差矩阵合并成一个托伯利兹矩阵 R2 q +1 ,就得到扩展向量的协方差矩阵. R2 q +1 R

46、0 RT 1 = T R2 q R1 R0 T R2 q 1 R2 q R2 q 1 R0 (16.5.23) 对扩展向量的协方差矩阵进行主分量分析,计算出该矩阵的特征值和特征矢量,所有的特征矢量都相互正交.让特征值以降序排列.对应高特征值的特征分量产生的子空间含有最多的信息.最小特征值的分量通常对应于噪声.因此,通常可以去掉这些分量36. 将选择的特征向量进行转置就得到滤波器矩阵.例如,如果保留前 5 个分量和分量 10 到 12(保留了 8 个分量) ,滤波器矩阵 H 为: H = v1 v5 v10 那么此时 H 为维数为 8 (2 q + 1) . v12 T (16.5.24)

47、那么一段语音的滤波可以通过计算矩阵 H 卷积扩展向量来实现.例如,如果只保留了前 r 个主分量,那么 H 维数为 r (2q + 1) ,那么可以将 H 写成: H = H q H 0 H q (16.5.25) 滤波后的向量为 : 12 + f t = H X tt qq = k = q H +q k xt k (16.5.26) (2) 识别阶段 TFPC 参数的获取应该注意,训练阶段的参数获取与识别阶段参数获取不是独立的.从上述可知,每种语言在训练 (i ) 过程中都获得了一个滤波器 H 来表示,其中 i = 1, 2,., n ,表示第 i 种语言 .完成训练后,每种语言用一个滤

48、波器矩阵和一个统计模型进行表示. 测试语音的某种特征参数也进行滤波,但所使用的滤波器不是在测试语音中获得的,而是前面在训练语音中得到的. 用时频滤波器对特征参数进行滤波, 得到新的参数序列.然后就可以计算每个模型的概率分数,从而判别出测试语音的语言种类. xt P f t | (1 ) (1 ) ( ) P f t | ( 2 ) (2 ) ( ) P f t | (n ) (n ) ( ) L(i ) 图 16.5.4 利用 TFPC 进行识别 16.5.5 基于高斯混合二元模型(GMBM)的语言辨识系统一,基于最大似然概率准则的 GMBM 系统37 (1) 高斯混合二元模型(GMBM) D 维观察向量) 和统计模型所获取的区分信息的好坏.下面将给出高斯混合二元模型 GMBM 的理论框架37.已知模型 ,观测向量序列 X 的概率为: p( X

展开阅读全文