语音识别超级心得.ppt-资源下载-道客多多-道者的世界，分享的人生！

语音识别超级心得.ppt

1、语音识别（ 78）关于 HMM训练的几点考虑克服训练数据的不足 HMM的模型含有很多待估计的参数，为得到满意的模型，必须要有很多训练数据，这在实际中很难办到。在训练数据少时，一些出现次数很少的观察值没有包含在整个训练数据中，这样训练出的 HMM参数中就会有不少为零的概率值。需要对训练好的模型进行相应的处理。语音识别（ 79）常用的方法是将一个训练较充分，但细节较差的模型与一个训练虽不充分，但含有细节的模型进行混合。前一个模型可在 HMM模型结构中将有些状态转移概率及观察输出概率相近的进行 “捆绑 ” ，从而减少模型参数。使用相同的训练数据就可以对这种 “捆绑 ”后的模

2、型进行较充分的训练。语音识别（ 80）合并两个 HMM的问题可以表示为其中为结果模型，和为待合并的两个模型，分别代表前面提到的两种类型的模型。为合并比例系数。关键是合并权值的估计。一种方法是人工选择权值，这种方法的局限很明显：过分依赖于人的经验判断，且工作量大。语音识别（ 81）删插（ Deleted Interpolation）平滑法设和为和模型中状态 j对应的观察值概率，为中状态 j对应的观察值概率，那么有状态 j被三个状态所取代没有输出观察值概率输出观察值概率输出观察值概率空转移估计权值的问题转化为一个 HMM训练问题，可相应估计出来。语

3、音识别（ 82）4.4 大词汇量连续语音识别技术语音识别研究中意义最重大、应用成果最丰富，同时最具有挑战性的研究课题。大词汇量非特定人的连续语音识别系统的词误识率大体为小词汇量、特定人的孤立词识别系统词误识率的 50倍左右。特有的问题：无法切分，无法确定单词间的边界位置。发音变化：连续语音的发音比孤立词发音更随便，受协同发音的影响也更为严重。语音识别（ 83）上个世纪 90年代初期已经取得了若干突破性的进展。这一进展依赖于在识别系统中采用 HMM算法的统一框架，以及非常细致的将声学、语音学和语言学的知识引入，并改善这个框架。在大词汇量语音识别系统中，一段语音信号的特征矢量序

4、列为该特征矢量序列可能包含一个词序列为语音识别（ 84）按贝叶斯准则，那么语音识别的任务为，找到对应观察序列 O的最可能的词序列要找到最可能的词序列，必须使上式右侧两项的乘积最大。第一项由语言模型决定，第二项由声学模型决定。语音识别（ 85）在实现时声学和语言学模型结合在一个框架中，训练时单独训练。现在的统一做法是将整个识别系统分为三层：声学语音层、词层和句法层。语音识别（ 86）是识别系统的底层，它接受输入语音，并以一种 “子词 ”单位作为其识别输出，每个子词单位对应一套HMM结构和参数。词层规定词汇表中每个词是由什么音素音子串接而成的。句法层中规定词按照什么规则组合成

5、句子。语音识别（ 87）这样，从状态出发逐层扩大到音子、词、句子。每一个句子包含许多状态的复杂的状态图，该句子就是用由所有状态形成的结构、状态之间的转移概率，以及每个转移弧产生某个特征输出的概率来描述的。对于特定的词表和句法，所有可能出现的句子构成了一个更大的状态图。在完成识别任务时，要根据一个输入语音特征矢量序列来确定一个最可能的句子。需要在这个大的状态图中搜索一条路经，该路径产生上述特征矢量的概率最大，由路径可以进一步确定句子中的每一个词。语音识别（ 88）基于子词单元的连续语音识别系统总体框图语音识别（ 89）4.4.1 声学模型 (1) 基本声学单元的选择以词为基本单元建

6、立模型不合理，造成大量不必要的冗余存储和计算。因此一般采用比词小的子词识别基元，如音节、半音节、音素等。一般来说，声学单元越小，其数量也就越少，训练模型的工作量也就越小；但单元越小，对上下文的敏感性越大，越容易受到前后相邻的影响而产生变异，因此其类型设计和训练样本的采集更困难。语音识别（ 90）(2) 如何由子词单元构成词在词层中应有一部字典来规定词表中每一个词是用哪些子词单元以何种方式构筑而成的。最简单实用的方案是每个词用若干子词单元串接而成。每个词的发音可能有多种变化方式，在子词串接时，必须有所体现。替换：即词中的某个音子可能被用其它相似而略有差异的子词单元所替换。插

7、入和删除：词中有时增加了一个不是本词成分的子词单元，有时又将本词成分中的某个子词删除。语音识别（ 91）解决方案方案 1：每一个词建立多套子词单元串接规则。方案 2：将子词单元构成词的规则用一个网络图来描述。可以相互替换的子词单元可选择的子词单元语音识别（ 92）(3) 基于子词单元的 HMM训练子词单元的 HMM一般采用从左到右的结构，状态数固定为 2到 4个。在语音段中，子词太短，无法精确标出语音的边界。训练时，用一种很粗糙的方法进行初始分段，例如等长分段，形成初始模型。已知句子内容，因此可将子词模型串接成句子，然后用分段 K均值算法多次迭代，对各子

8、词模型进行重估。最终会自动收敛于一个最佳模型估计，同时达到合理的子词分段。语音识别（ 93）v 分段 K均值算法初始化：将每个训练语句线性分割成子词单元，将每个子词单元线性分割成状态，即假定在一个语句中，子词单元及其内部的状态驻留时间是均匀的；聚类：对每个给定子词单元的每一个状态，其在所有训练语句段中特征矢量用 K均值算法聚类；参数估计：根据聚类的结果计算均值、各维方差和混合权值系数；分段：根据上一步得到的新的子词单元模型，通过Viterbi算法对所有训练语句再分成子词单元和状态，重新迭代聚类和参数估计，直到收敛。语音识别（ 94）4.4.2 语言模型众所周知，从一个词表中

9、任意选择若干词所构成的序列不一定能构成自然语言中的句子，只有合乎句法者才能算是句子。这种约束，在语音识别中可以利用语言模型来实现。语言模型分为基于文法的语言模型和基于统计的语言模型。在大词汇量的语音识别系统中，统计语言模型由于可以克服文法规则方法难以处理真实文本的局限性，因而获得了越来越广泛的应用。语音识别（ 95）统计语言模型的基本原理是，采用大量的文本资料，统计各个词的出现概率以及其相互关联的条件概率，并将这些知识与声学模型匹配相结合进行结果判决，以减小由于声学模型不够合理而产生的误识。理想情况：对词串，语音识别（ 96）(1) N元文法模型：条件概率计算时，只考虑与前

10、N1个词相关，F(W)是指词串 W在训练数据中出现的次数。通常系统中采用的也只有二元和三元文法。 N元文法统计语言模型的建立，一般是通过相对频率计数得到：一般采用简化模型语音识别（ 97）其中，是训练语料的总词数。解决这种训练数据稀疏的方法：为了避免出现或接近于零的情况，可以用三元、二元和一元相对频率做插值。语音识别（ 98）（ 2）词对模型：二元文法模型的简化形式（ 3）长距离文法模型：反映语言中较长距离的词之间的相关性，长距离二元文法模型中：（ 4） N元词类文法模型：每个词 wt只与其所在类 ct有关，而与前一时间的词所在类 ct-1中的成

11、员无关。语音识别（ 99）4.4.3 最优路径搜索从各种可能的子词序列形成的一个网络中，找出一个或多个最优的子词序列。这在本质上属于搜索算法或解码算法的范畴。路径的搜索应从每个可能成为句子开始的子词单元开始，然后向各种可能的单元转移，直到当前子词的最大可能帧数位置。全搜索几乎是不可能的。因此常采用基于一定裁剪路径的算法。语音识别（ 100）裁剪路径即放弃不可能的，或者说得分低的路径。例如：当该路径与最优路径得分的差值大于一定门限时，可以放弃该路径。在搜索过程中，声学和语言学模型可以结合在一起。对于新的一帧数据，语言模型和字典层控制子词间如何扩展和转移。 HMM模型控制词内

12、的状态转移。语音识别（ 101）1、 Viterbi Beam搜索算法初始化初始化活动路径（最高层）递推For m=1 到 MFor 每一层次（指各个层次的语言和声学模型）For HMM的每个活动状态把每个活动路径向后扩展一帧至所有可以到达的状态执行 Viterbi计算裁剪路径End 活动状态 End 每一层次 End 观察矢量序列终止：选择最可能的路径 Viterbi Beam算法是一个次优算法，最优路径有可能在开始时因得分过低而被裁剪掉。不过，在语音识别中次优算法也往往可以应用。语音识别（ 102）（ 2）基于前向搜索后向回溯的 N-best算法保证全局最优，而且能依次得

13、到全局得分最高的 N条候选路径。该算法是一个 TWO-PASS 的过程v 第一部分是从初始帧到最末帧的帧同步前向格点搜索，采用 Viterbi算法来记录所有局部路径的得分值。v 另一部分是从最末帧到初始帧异步后向树搜索，采用 A*算法实现。语音识别（ 103） A*算法对词图中的每个词节点 n，其估价函数 f(n)估计了从搜索开始节点（句尾）经过节点 n，到达目的节点（句首）的最优路径得分，f(n)=g(n)+h(n)g(n)是从句尾到词 n之间最优路径的得分估计，启发函数 h(n)是从句首到词 n最优路径的得分估计，它由第一阶段的搜索给出。语音识别（ 104）通过一个堆栈将

14、当前各 f(n)从优到劣排序，使当前最先要进行扩展的路径处在栈顶。扩展栈顶路径，记录所扩展的路径到输出链表，计算扩展后各个新的 f(n)，直到句首，这样就完成了一条路径的搜索。不断地按照栈顶的内容扩展，就可确定出 N条路径。语音识别（ 105）语音识别（ 106）基于 Viterbi的 N-best算法前向搜索后向回溯的 N-best算法是 Two pass算法，后向回溯必须在一段语音结束后才能开始。获得的结果至少要延迟第二阶段搜索的时间。出现其他算法，如基于 Viterbi的 N-best算法：采用 Viterbi搜索，在每个词层保留 N个最优的前接路径，并分别向后扩展，在新的词层进行裁减后仍保留 N个最优。全部搜索结束后，选出最优的 N个结果，并分别逐次回溯出 N条路径。语音识别（ 107）4.5 关键词检出采用语音识别技术把需要的词从包含它的连续语句中提取出来，这种技术称为关键词检出（Keyword Spotting）或词检出技术。应用领域：电话接听监听口语识别系统信息查询系统

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？