1、语音识别技术,谢 湘 博 士 北京理工大学电子工程系 现代通信实验室,2003-12-02,北京理工大学,2,提 纲,一、语音识别技术概论 二、语音识别生理分析与系统设计 三、语音识别系统举例 四、关键技术声学特征提取 五、关键技术HMM 六、汉语语音识别特点 七、参考文献及作业,2003-12-02,北京理工大学,3,1.1语音识别学科特点,计算机学科 计算机智能接口 信息处理学科信息识别及提取 通信及电子系统信源处理 人工智能时序模式、多维模式识别 声学、生理学、心理学、语音学、语言学 “语音研究工作者应当努力工作在跨学科的领域”,2003-12-02,北京理工大学,4,1.2语音识别应
2、用价值,信息查询(股票、天气、航班) 人机界面(新一代操作系统、智能家居) 听写机(文字输入、记录) 数据库管理(语音检索) 语音识别(提取或匹配语义)、语音压缩(高效存储、传输语音信号)、语音合成(输出自然可懂的语音信号)、语音增强(提高信噪比、加重语音成分)息息相关。 说话人识别(安全应用) 关键词检出(多媒体数据检索),2003-12-02,北京理工大学,5,1.3语音识别系统分类及典型系统,孤立词连接词连续语音自然语音 特定人非特定人 词汇量(小、中、大)IBM ViaVoice 听写机 AT&T VRCP系统(自助话务员协助呼叫) NTT ANSER 语音识别银行服务系统 SONY
3、AIBO 机器狗,2003-12-02,北京理工大学,6,1.4 语音识别历史发展,50年代AT&T Bell Lab,可识别10个英文数字 60年代LP较好地解决了语音信号产生模型, DP则有效解决了不等长语音的匹配问题。 70年代DTW(Dynamic Time Warp)技术基本成熟,VQ和HMM理论;实现了基于LPC和DTW技术相结合的特定人孤立语音识别系统。 80年代HMM模型和人工神经元网络(ANN)在语音识别中成功应用。1988年美国CMU大学基于VQ/HMM开发SI-CSR系统 SPHINX。 90年代大规模应用,工业标准,理论进展缓慢,2003-12-02,北京理工大学,7,
4、1.5 语音识别的性能评价,原句:我 们 明 天 去 天 安 门 识别:我 明后天 去 天 坛 删除错误 Deletion 插入错误 Insertion 替换错误 Substitution正确率: 准确率:,2003-12-02,北京理工大学,8,1.6 语音识别技术面临的问题,数据资源 (年龄、性别、语言、方言、主题、情绪、地域切分、标注体系) 抗噪性能(背景噪声、信道噪声、干扰) 协同发音(Co-articulation) 口语现象(重复、顿措、语序颠倒) 说话人变异(口音、情绪、年龄) 听觉机理(音量、频率、抗噪、区分) ,2003-12-02,北京理工大学,9,2.1 语音产生语音理解
5、生理过程,2003-12-02,北京理工大学,10,2.2 语音识别层次模型,2003-12-02,北京理工大学,11,2.3 统一层次模型 系统设计,2003-12-02,北京理工大学,12,2.4 各类典型语音识别系统比较,2003-12-02,北京理工大学,13,3.1语音识别系统基本构成,特征提取,训练,模式匹配,拒识,语法,模板,结果,语音,说话人自适应,2003-12-02,北京理工大学,14,3.2语音识别系统举例,2003-12-02,北京理工大学,15,4、特征提取,预加重: 分帧: 短时平稳(10-30ms) 加窗:Hamming 特征参数 倒谱均值归一化,2003-12-
6、02,北京理工大学,16,4.1 特征参数,静态参数:Mel-Frequency Cepstrum Coefficients (MFCC)、PLPC帧能量动态参数,2003-12-02,北京理工大学,17,4.2 Mel-频率,目的:模拟人耳对不同频率语音的感知人类对不同频率语音有不同的感知能力 1kHz以下,与频率成线性关系 1kHz以上,与频率成对数关系Mel频率定义 1Mel1kHz音调感知程度的1/1000,2003-12-02,北京理工大学,18,Mel-频率,公式:频率Mel-频率:,- 频率,- Mel-频率,Mel-频率,频率(Hz),2003-12-02,北京理工大学,19,
7、MFCC,计算流程:,DFT,时域信号,线性谱域,Mel 滤波器组,Log,DCT,Mel谱域,对数谱域,MFCC,2003-12-02,北京理工大学,20,Discrete Fourier Transform (DFT),公式:应用:Fast Fourier Transform (FFT),- 时域信号,- 频域信号,2003-12-02,北京理工大学,21,Mel 滤波器组参数选择,以采样率8kHz,帧宽30ms为例: FFT窗宽:512滤波器个数:26 (通常24-40)滤波器频率应用范围(电话频带): 最高:3400Hz 最低:300Hz,2003-12-02,北京理工大学,22,Me
8、l 滤波器组图示,2003-12-02,北京理工大学,23,对数能量,公式:应用:对噪音和谱估计误差有更好的鲁棒性,2003-12-02,北京理工大学,24,倒谱参数,Discrete Cosine Transform (DCT)倒谱维数:前12维,2003-12-02,北京理工大学,25,4.3 帧能量,公式:应用:,其中:,2003-12-02,北京理工大学,26,4.4 动态参数,反映帧间相关信息 一阶差分:二阶差分:,- 静态参数,包括倒谱和帧能量,2003-12-02,北京理工大学,27,4.5 特征参数,特征矢量图例:m=1,倒谱帧能量,一阶差分,二阶差分,特征参数,2003-12
9、-02,北京理工大学,28,4.6 倒谱均值归一化,Cepstrum Mean Normalization (CMN) 目的:消除信道带来的影响应用:T通常为整个词的特征帧数 一个变形:,其中,其中,2003-12-02,北京理工大学,29,5. HMM的核心思想和关键技术,2003-12-02,北京理工大学,30,2003-12-02,北京理工大学,31,问题描述(孤立词识别),观测矢量序列,目标(MAP),Bayes准则,目标转移(ML),2003-12-02,北京理工大学,32,训练,2003-12-02,北京理工大学,33,识别,2003-12-02,北京理工大学,34,2003-12
10、-02,北京理工大学,35,问题是:X未知,2003-12-02,北京理工大学,36,模型参数,初始状态概率 状态转移概率 A=aij 状态输出概率 B=bj(ot),高斯分布假设:,2003-12-02,北京理工大学,37,2003-12-02,北京理工大学,38,似然概率计算,遍历所有可能的状态路径,状态“软”分配,计算量2TNT,只用似然概率最大的那条状态路径,状态“硬”分配,2003-12-02,北京理工大学,39,HMM的三个基本问题,评估问题根据已知模型求未知样本似然度 Forward-Backward算法 最优路径搜索、状态序列分割问题Viterbi算法 训练问题 (根据已知观测
11、确定模型参数) Baum-Welch算法 以下讨论假设HMM有N个状态,第1和第N个状态为空状态。,2003-12-02,北京理工大学,40,Forward算法,前向概率,初始条件,2003-12-02,北京理工大学,41,Forward算法,运算量: (N-2)(N-1)T 次乘法,2003-12-02,北京理工大学,42,Backward算法,后向概率,2003-12-02,北京理工大学,43,Backward算法,运算量: 2(N-2)(N-2)T 次乘法,2003-12-02,北京理工大学,44,前向概率与后向概率的关系,2003-12-02,北京理工大学,45,Viterbi搜索,2
12、003-12-02,北京理工大学,46,Viterbi搜索,2003-12-02,北京理工大学,47,Viterbi搜索,2003-12-02,北京理工大学,48,训练问题:Baum-Welch算法,如果N=3 (单状态 j),问题简化,2003-12-02,北京理工大学,49,训练问题:Baum-Welch算法,N3, 多状态情况,t时刻位于第j个状态的概率,2003-12-02,北京理工大学,50,训练问题:Baum-Welch算法,2003-12-02,北京理工大学,51,训练问题:Baum-Welch算法,(1)初始化A, B; (2)计算每个状态j、每个时刻t的前后向概率; (3)计
13、算Lj(t),估计一组新参数A,B,并求出P(O|M); (4)如果P(O|M)不再增加,则停止迭代,否则继续(2)。,2003-12-02,北京理工大学,52,连续语音识别,基本识别单元通过空状态互相连接。 搜索空间更为巨大,更适合采用Viterbi搜索算法。 基本识别单元的选取问题,2003-12-02,北京理工大学,53,HMM训练优化准则,最大似然ML准则(Maximum Likelihood) 最大互信息MMI准则(Maximum Mutual Information) 最小区分信息MDI准则(Minimum Discriminative Information) 最小误识率MEE(
14、Minimum Emperior Error)准则(又称区分训练 Discriminative Training) 最大后验概率MAP准则(Maximum A Posterior),2003-12-02,北京理工大学,54,离散HMM(DHMM) 采用离散概率输出的HMM和VQ相配合,将ot经过矢量量化后,输出相应VQ码本中码字的离散概率。 连续密度HMM(CDHMM) GMD-CDHMM半连续HMM(SCHMM) 相当于离散HMM和连续HMM的混合。状态输出的特征向量是连续的,也是用多个高斯分布的加权和来近似概率分布函数,但是用来作加权和的高斯函数的集合是固定的,类似于对高斯密度函数建立了“
15、码本”,各个状态输出概率密度之间不同的是对“码本”中各个高斯密度函数的加权系数。,HMM分类,2003-12-02,北京理工大学,55,6. 汉语语音识别的特点,汉字是汉语的最小语言单位,所有的汉字的发音都是单音节(monosyllable) 有调语言(tonal language) 多音字与同音字:语言模型更为重要 自成一体的发音体系: “C-V”和“C-V-C” 儿化、变调等特有的语言现象,2003-12-02,北京理工大学,56,汉语语音建模基元比较,2003-12-02,北京理工大学,57,7. 参考资源,近代语音识别,陈尚勤,电子工业出版社,1991 http:/www.speech.cs.cmu.edu/ Rabiner L, Juang B H. Fundamentals of Speech RecognitionM. Eagle Wood Cliffs, NJ: Prentice-Hall, Inc., 1993. ICASSP,ICSLP,EUROSPEECH,2003-12-02,北京理工大学,58,10.1.5.191/incoming/asr_homewk 作业讨论:10.1.5.208,