收藏 分享(赏)

隐马尔科夫模型-孤立字语音识别.ppt

上传人:tkhy51908 文档编号:8796655 上传时间:2019-07-11 格式:PPT 页数:19 大小:276.50KB
下载 相关 举报
隐马尔科夫模型-孤立字语音识别.ppt_第1页
第1页 / 共19页
隐马尔科夫模型-孤立字语音识别.ppt_第2页
第2页 / 共19页
隐马尔科夫模型-孤立字语音识别.ppt_第3页
第3页 / 共19页
隐马尔科夫模型-孤立字语音识别.ppt_第4页
第4页 / 共19页
隐马尔科夫模型-孤立字语音识别.ppt_第5页
第5页 / 共19页
点击查看更多>>
资源描述

1、隐马尔科夫模型-孤立字语音识别,马尔科夫链 马尔科夫模型 隐马尔科夫模型 孤立字语音识别,1.马尔科夫链,设S是一个由有限个状态组成的集合。S=1, 2, 3, ,n-1, n 可以把马尔科夫链看做小球随时间在n种 状态跳动的过程。,T,S,1,2,3,n,0,1,2,3,t,由小球的跳动产生的状态序列X 如果序列X在t时刻处在状态 ,若有,则随机序列X构成一个一阶马尔科夫链。 (Markov Chain),2.马尔科夫模型,一阶马尔科夫模型可以描述为一个二元组( S, A ) ,S是状态的集合,而A是所有状态转移概率组成的一个n行n列的矩阵,其中每一个元素 为从状态i转移到状态j的概率。,一

2、个马尔科夫模型的应用 天气预测: 我们假设天气只有3个状态1(阴天),2(多云),3(晴天) 对以往天气的观察我们已经统计出了状态转移矩阵。,阴天,晴天,多云,0.3,0.2,0.6,0.4,0.3,0.1,0.2,0.8,0.1,假设我们今天是晴天,那么我们怎样预测 明天的天气呢? 因为晴天是3状态,多以我们只要找出矩阵 A中第三行的转移概率最大的那一列即可。 因为A的第三行第三列最大,也就是或如果 今天是晴天则有0.8的概率明天仍然是晴天。,3.隐马尔科夫模型,坛子与小球问题,1,2,n,坛子和小球的问题n个坛子代表马尔科夫模型的n个状态的,某人按照马尔科夫模型在n个坛子中选择,这是一个马

3、尔科夫过程,当他选择到一个坛子他就从坛子中取出一个小球,记录小球的颜色。假设坛子中各种颜色的球的个数是不一样的,所以他拿到每种颜色球的概率也是一个随机过程。这种双随机过程就是隐马尔科夫模型。,隐马尔可夫模型 可以表示为一个五元组 ( S, V, A, B, )S 是一组状态的集合。S = 1, 2, 3, , N (状态n对应坛子n)V 是一组输出符号组成的集合。V = ( 对应红色小球)A 是状态转移矩阵,N 行N 列。A = = ,1 i, j NB 是输出符号的概率分布。B = 表示在状态j时输出符号 的概率= P( | j ), 1kM ,1jN是初始状态概率分布 = = P( = i

4、 ) 表示时刻1选择某个状态的概率。,隐马尔可夫过程是一个双重随机过程,其中一重随机过程不能直接观察到,通过状态转移概率矩阵描述。另一重随机过程输出可以观察的观察符号,这由输出概率来定义。可以把隐马尔可夫模型看做符号序列的生成装置,按照一定的步骤,隐马尔可夫模型可以生成下面的符号序列: O= ( ),抛掷硬币问题,三枚硬币,随机选择一枚,进行抛掷,记录抛掷 结果。可以描述为一个三个状态的隐马尔科夫模型 。= (S, V, A, B, ),其中S = 1, 2, 3V = H,T= 1/3, 1/3, 1/3,问题一: 给定上述模型,观察到下列抛掷结果的概率是 多少?O = (H H H H T

5、 H T T T T) (估算问题) (另一种语言模型) 问题二: 给定上述模型,若观察到上述抛掷结果,最可 能的硬币选择序列(状态转换序列)是什么? (解码问题) 问题三: 若上述模型中的状态转移矩阵A、状态输出概 率B 和初始状态分布 均未知,如何根据观察 序列得到它们?(学习问题或训练问题),隐马尔科夫模型的三大问题,第1帧,4.孤立字语音识别 4.1特征提取,第2帧,第3帧,第4帧,第5帧,每一帧我们可以取24维特征矢量来表示,这相当 于隐马尔科夫模型中的观察序列。但唯一的问题 是拿小球坛子问题来说就是它的小球种类是无数 种,因为是24维矢量。所以我们要把这些无数种 的矢量归类,这就是

6、矢量量化过程。,举例:,以二维矢量为例 所有可能的二维矢量就构成了一个平面。 第i个二维矢量记为: Xi=xi1,xi2。先把这个平 面划分成J块互不相交的子区域,从每个子区域中 找出一个代表矢量。如J=7。,矢量量化的基本原理,矢量空间的划分,x1,x2,码本 Y=Y1,Y2,YJ 码本长度 J=7 码字 Yj=xj1,xj2,j=1,2,J,矢量量化的基本原理,矢量空间的划分,按照上面的原理把24维的语音特征归类 到码本中,语音识别的码本一般选64, 128,或256。 观察序列就产生了 这里的T就是孤立字语音分割出来的帧数, O是码本中的码字 构造隐马尔科夫模型(S, V, A, B, ) 其中A的状态数N一般选在3-8之间效果最好, V的大小就是码本长度,它的值就是码字。,4.2形成隐马尔科夫模型,设 =(A,B, ),构造好模型 训练 的值使P(O| )最大。 储存每个孤立字训练出来的 和该 对应的字,4.3训练每个孤立字语音的参数,4.4语音识别 某人说一个字,这个字要求已经被训练过, 把这个字的音频通过码本转化成观察序列。 根据这个序列去找储存好的 使P(O| )最 大,通过 找到这个 对应的字。,THE END !,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报