收藏 分享(赏)

语音信号处理PPT_第十 十一章_说话人识别 语种识别 语音隐藏.ppt

上传人:jinchen 文档编号:8241728 上传时间:2019-06-16 格式:PPT 页数:58 大小:1.24MB
下载 相关 举报
语音信号处理PPT_第十 十一章_说话人识别 语种识别 语音隐藏.ppt_第1页
第1页 / 共58页
语音信号处理PPT_第十 十一章_说话人识别 语种识别 语音隐藏.ppt_第2页
第2页 / 共58页
语音信号处理PPT_第十 十一章_说话人识别 语种识别 语音隐藏.ppt_第3页
第3页 / 共58页
语音信号处理PPT_第十 十一章_说话人识别 语种识别 语音隐藏.ppt_第4页
第4页 / 共58页
语音信号处理PPT_第十 十一章_说话人识别 语种识别 语音隐藏.ppt_第5页
第5页 / 共58页
点击查看更多>>
资源描述

1、说话人识别,语 种 识 别,语 音 隐 藏,刘迪源,10.1概述 10.2说话人识别方法和系统结构 10.3应用DTW的说话人确认系统 10.4应用VQ的说话人识别系统 10.5应用HMM的说话人识别系统 10.6应用GMM的说话人识别系统 10.7说话人识别中尚需进一步探索的研究课题,10.1 概述,自动说话人识别(Automatic Speaker Recognition) 是一种自动识别说话人的过程。说话人识别和语音识别的区别在于,它不注重包含在语音信号内的文字符号以及语意内容信息,而是着眼于包含在语音信号中的个人特征,提取说话人的这些个人信息特征,以达到识别说话人的目的。,说话人识别分

2、类,按其最终完成的任务可以分为两类:自动说话人确认(简称ASV):确认一个人的身份,只涉及一个特定的参考模型和待识别模式之间的比较,只做“是”和“不是”的判决。自动说话人辨认(简称ASI):必须辨认出待识别的语音是来自待考察认中的哪一个,有时还要对这个人以外的语音做出拒绝的判决。,按测试方法分类:与文本无关:不规定说话内容与文本有关:规定固定的说话内容文本指定型:每次规定不同的说话内容,10.2 说话人识别方法和系统结构,说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个人特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。图10-1是说话人识别系统的结构框图,它由预

3、处理、特征提取、模式匹配和判决等几大部分组成。,预处理,特征提取,模式匹配,参考模板,判决,语音输入,识别,训练,识别结果,说话人识别系统框图,10.2.1 预处理,首先对输入语音信号进行数字化,然后进行 端点检测、预加重、加窗、分帧等,和语音识别的区别: 1.抽样频率可能更高。可以多保留一些说话人的高频信息。 2.帧和帧长选定不同。应用较长时段语音特征信息以及若干帧范围内 过度特征信息。,预处理,特征提取,模式匹配,参考模板,判决,语音输入,识别,训练,识别结果,说话人识别系统框图,10.2.2 特征提取,个人特征:,1.发音器官的差异(静态特征)代表性特征参数有倒谱和基音参数,2.发音动作

4、的差异(动态特征)代表性特征参数是差值倒谱和差值基音,由于基音特征只存在于浊音中,说话人识别一般采用倒谱特征参数,在理想情况下,选取的特征应当满足下述准则:能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定。 易于从语音信号中提取 不易被模仿 尽量不随时间和空间变化,10.2.2特征提取,说话人识别常用参数分类: 线性预测参数及其派生参数(LPC,LPCC) 语音频谱直接导出的参数(MFCC,PLP) 混合参数(Pitch+MFCC, Pitch+LPCC) 其他鲁棒性参数,10.2.2 特征提取,10.2.3 特征参量评价方法,在给定一种识别方法后,识别的效果主要取决

5、于特征参数的选取。对于某一维单个的参数而言,可以用F比来表征他在说话人识别中的有效性。可以选取两种分布的方差之比(F比)作为有效性准则。,其中:,第i个说话人的第a次话音特征,预处理,特征提取,模式匹配,参考模板,判决,语音输入,识别,训练,识别结果,10.2 说话人识别系统框图,10.2.4模式匹配方法,概率统计方法 动态时间规整方法(DWT,Dynamic Wraping time) 矢量量化方法(VQ,vector quantization) 隐马尔科夫模型方法(HMM,hidden markov model) 人工神经网络方法(ANN,artifical neural network)

6、,预处理,特征提取,模式匹配,参考模板,判决,语音输入,识别,训练,识别结果,10.2 说话人识别系统框图,10.2.5 判别方法和阈值的选择,图10-2 两种错误率与接受门限的关系,10.2.6 说话人识别系统的评价,错误拒绝率FR,错误接受率FA,10.3 应用DTW的说话人确认系统,一个应用DTW说话人识别系统如图10-4所示。,特点: 1.在结构上基本沿用语音识别的系统 2.利用使用过程中的数据修正原模板,文本相关,10.4应用VQ的说话人识别系统,特征参数提取,特征参数提取,说话人模型1 . . 说话人模型N,说话人1 . . 说话人N,阈值Ti,判决,训练语音,测试语音,VQ码本建

7、立,识别结果,图10-5 应用VQ的说话人识别系统,应用VQ的说话人识别过程的步骤如下: 训练过程 从训练语音提取特征矢量,得到特征矢量集; 通过LBG算法生成码本; 重复训练修正优化码本; 存储码本 识别过程 从测试语音提取特征矢量序列 由每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量化误差:式中 是第i个码本中第l个码本矢量,而 是待测矢量 和码矢量 之间的距离 选择平均量化误差最小的码本所对应的说话人作为系统的识别结果。,10.5应用HMM的说话人识别系统,10.5.1 基于HMM的与文本有关的说话人识别,语音区间检测,特征序列提取,HMM生成,HMM概率计算,阈值比较,阈值设

8、定,训练,识别,语音输入,判定输出,图10-6 利用HMM的与文本有关的说话人识别系统构造,10.5.2 基于HMM的与文本无关的说话人识别,一般采用各态历经HMM建立说话人模型:学习阶段:提取文本发音的特征序列建立模型。HMM状态一般取5个,每个状态采用混合高斯密度分布。识别阶段:先从输入语音中提取特征序列,然后利用本人的HMM计算输入特征矢量的概率值,通过和阈值相比较,判决识别的结果,10.5.3 基于HMM的文本相关(指定文本型)说话人识别,语音区间检测,特征序列提取,非特定话者基元HMM,基元HMM生成,文本HMM生成,HMM概率计算,阈值比较,阈值设定,训练,识别,指定文本输入,语音

9、输入,判定输出,图10-7 利用HMM的指定文本型说话人识别系统构造,10.5.3 说话人识别HMM的学习方法,1.仅利用少量的登录说话人学习数据的学习方法首先利用特定说话人的所有发音数据建立一个和基元类别无关的话者HMM(与说话人相关的背景模型),然后以此为初始模型,根据说话人的训练语音内容对个高斯分布的权值进行自适应。2.利用非特定人语音HMM和登录说话人学习数据的学习方法利用大量的非特定人基元HMM和各话者HMM进行组合的方法。,10.6应用GMM的说话人识别系统,混合高斯分布模型是只有一个状态的模型,在这个状态里具有多个高斯分布函数,其中:,混合权值的重估公式:均值的重估公式:方差的重

10、估公式:,计算后验概率,E步:,M步:,EM算法估计参数,GMM模型的识别问题给定一个语音样本,说话人辨认的目的是要确定这个语音属于N个说话人中的哪一个。基于GMM的说话人辨认系统结构框图如图10-8所示。,预处理,GMMN,判决逻辑,GMM2,GMM1,提取LPC倒谱,语音信号,speaker1,speaker2,speaker N,识别输出结果,基于GMM的说话人辨认系统结构框图,识别的目的是找到一个 ,其对应的模型 使得待识别语音特征矢量组X具有最大后验概率,根据Bayes理论,最大后验概率可表示为:在这里:其对数形式为:因为 的先验概率未知,我们假定该语音信号出自封闭集里的每一个人的可

11、能性相等,也就是说:,10.7说话人识别中尚需进一步探索的研究课题,1.基础性的课题 关于语音中语意内容和说话人的分离,系统的全面的进行研究的人还是很少的。 究竟什么特征参数对说话人识别最有效?如何有效的利用非声道特征? 说话人特征的变化和样本选择问题。 用听觉和视觉的说话人识别研究是用计算机进行说话人识别的基础。,实用性的问题 说话人识别系统设计的合理化及优化问题。 如何处理长时和短时说话人的语音波动?如何区别有意模仿的声音? 说话人识别系统的性能评价问题。 可靠性和经济性。目前说话人识别的主要研究主要集中在如下几个方面: 语音特征参数的提取和混合 HMM模型与其他模型混合,改善说话人识别系

12、统的性能。,说话人识别中尚需进一步探索的研究课题,说话人识别,语 种 识 别,语 音 隐 藏,10.8语种辨别的原理和应用,语种辨别(Language Identification )与语音识别和说话人识别有所不同,它是通过分析处理一个语言片段以判别其所属语言的语种,本质上也是语音识别的一方面。10.8.1语种辨别的基本原理和基本方法世界上的不同语种间有多种区别,比如音素集合、音位序列、音节结构、韵律特征、词汇分类、语法及语意网络等,所以在自动语种辨识中有多种可利用的特征。就一个语种辨识系统的结构而言,则和语音识别及说话人识别有相似之处,其基本框架结构如图10-9所示。,语言1模板,语言1匹配

13、,语言2模板,语言2匹配,语言N模板,语言N匹配,特征提取,识别结果,分类判决,图10-9 语种辨识系统框图,I.基于失真的VQ方法,图10-10 基于VQ的语种辨识流程,离散/连续各态经历HMM,有记忆 从左到右HMM 各态历经HMM,图 基于HMM的语种辨识流程,混合高斯分布模型,HMM的一个特例,当混合连续分布HMM每个状态的观察概率分布都满足高斯分布时,GMM可以看做单状态混合连续分布HMM。,具有3个混合数的GMM,假设输入语音信号矢量的时间序列是,具有个混合数的高斯分布模型:,GMM与HMM的联系,状态各态历经型连续,状态个混合数各态历经连续,语种辨别的应用领域,语种辨别在信息检索

14、及军事领域都有很重要的应用。主要包括 多语种信息服务:很多信息查询中可提供多语种的服务,但一开始必须用多语种语言提示用户选择用户所需语言。 机器自动翻译的前端处理。 军事上对说话人身份和国籍进行判别或监听等。,说话人识别,语 种 识 别,语 音 隐 藏, 语音信息隐藏的原理与应用,教材,信息隐藏技术是利用多媒体信息中存在的冗余及人类感知系统的特性,在不影响原始多媒体信息的感知质量的前提下,把额外的信息隐藏到原始载体中的一种技术。信息隐藏技术按载体信息的类型通常可分为:语音和音频信息隐藏、图像和视频信息隐藏等。 语音信息隐藏按照嵌入信息与载体信号是否相关可分为:语音隐写和数字语音水印。他们有不同

15、的应用背景。,语音信息隐藏系统通常包含三个部分:隐藏信息生成模 块G,信息嵌入模块E,以及隐藏信息检测(提取)模块D。语音信息隐藏系统一般框架如图所示。,11. 语音信息隐藏的常用方法,1.回声隐藏算法人类听觉系统对高能量信号前后短时间发生的少量畸变无法感知,超前掩蔽区持续时间较短(大约5 20ms ) ,而滞后掩蔽区持续时间较长(大约50200ms )。回声隐藏算法即是一种利用了人类听觉系统的这种时域掩蔽特性,通过在时域引入回声将隐藏信息嵌人到语音信号中的算法。回声隐藏与其他数字语音隐藏信息方法不同 ,它不是将隐藏信息当作随机噪声嵌入到原始数字语音,而是作为原始数字语音的环境条件。,隐藏信息

16、嵌入过程可表示为:上式中 表示嵌入隐藏信息后的信号, 表示原始语音信号, 表示嵌入强度 , 、 分别表示隐藏信息 所对应的时间间隔。,2.相位编码算法人耳具有对绝对相位不敏感,对相对相位敏感的特性。相位编码法充分利用了人耳的这一种特点,将代表秘密数据位的参考相位替换原始语音段的绝对相位,并对其他的语音段进行调整,以保持各段之间的相对相位不变化,从而达到嵌入不可感知的隐藏信息的目的。,Bender等人提出了一种相位编码的方法,具体步骤如下: 1. 对声音信号 进行分帧,对每帧数据应用DFT,建立一个相位向量 和幅度向量 。 2. 根据公式 计算并存储两个相邻语音片断间的相位差。按照如下公式修正首

17、段相位值:使用相位差建立相位向量: 然后使用新相位 和原幅度向量 进行IDFT变换产生隐 藏信息后的语音信号。 3.检测过程与嵌入过程相反,利用首段相位值进行判决。,3.扩频算法 扩频技术最早应用于军事通信系统中,其突出特点是:扩频信号是不可预测的伪随机宽带信号 ,扩频系统具有很高的抗干扰能力; 扩频信号的功率相当均匀地被分布在很宽的频率范围 ,以至被传输信号功率密度很低; 扩频系统具有良好的码分多址通信能力,对不同的用户使用不同的码,别人无法窃听。这些特点对于语音的信息隐藏非常有帮助。语音信息隐藏系统采用相似的扩频技术,其主要思想是在语音信号的某种表示域(时域或DFT、DCT、DWT变换域)

18、中嵌人伪随机序列 ,常采用的嵌入的方式有三种:加性嵌入,乘性嵌入,指数嵌入。,用公式表示为:,表示嵌入隐藏信息后的语音信号; 表示原始语音信号; 表示隐藏信息的嵌入强度; 表示扩频后的隐藏信息,扩频信息隐藏的检测过程并通过计算伪随机噪声和含隐藏信息的语音信号的相关值来检测信息,可表示为:,4.Patchwork算法 Patchwork算法是由Bender等人在1996年提出的,最初应用于图像隐藏信息。Arnold等利用Patchwork算法在数字语音的频域中嵌入隐藏信息。Patchwork本质上是一种基于统计的信息隐藏算法, 其思想是在原始语音信号中嵌入特定的统计特性。,信息嵌入过程: 1)对

19、语音信号分帧,然后将安全密钥映射为一个随机数产生器,利用随机数产生器伪随机地选择两个相互交织的相同大小的子集 2)根据嵌入规则 改变所选择的样本,其中 , 为表示0和1的两种模式,我们根据隐藏信息选择嵌入的模式。系数的改变量 必须满足不可感知性,所以 由心理听觉模型确定。,信息提取过程: 1) 对信号分帧,然后将安全密钥映射为一个随机数产生器,利用随机数产生器伪随机地选择两个相互交织的相同大小的子集 2) 利用公式计算统计量,3)定义 ,判决过程如下:,5.量化算法基于量化的隐藏算法是嵌入隐藏信息的一种有效手段。与叠加方法不同,量化隐藏方法不是将隐藏信息简单地加在原始信号上,而是根据不同的信息

20、,用不同的量化器去量化原始信号。提取数据时,根据待检数据与不同量化结果的距离恢复出嵌入的信息。基于量化方法的语音信息隐藏可分为两类:时域算法和频域算法。时域算法是通过在语音信号的时域(空域)直接修改样本的幅值来嵌入隐藏信息,而频域技术是通过改变语音信号的频域系数(如DFT,DCT,DWT系数)来隐藏信息。由于可以把隐藏信息分散到所有或部分信号样本上,所以频域算法隐藏性好、稳健性较强。,量化隐藏方案可用公式表示为: 上式中,d是量化步长,w是隐藏信息,x是原始语音信号(时域或其它域),y是量化值。 量化函数:表示向下取整信息提取过程通过计算待检测数据和不同量化结果之间的距离来恢复出隐藏信息,用公

21、式描述为:,11.语音信息隐藏系统的 常用评价标准,主要个:感知透明性、鲁棒性和信息容量。相互制约,图11-8 三个指标的关系,11.语音信息隐藏亟待研究解决的问题,从实际系统的角度看,目前的数字语音信息隐藏技术,在计算复杂性,抗各种攻击的能力,可实现性上,或多或少存在一些问题,例如时域信息隐藏技术相对容易实现且计算量较小,但抵抗攻击的能力较差。变换域信息隐藏技术通常利用语音掩蔽效应和扩频技术的思想,具有较强抵抗攻击的能力,但实现较复杂。而且现有的算法几乎都不能很好地对抗同步攻击,因此还没有一种语音信息隐藏算法是完美和真正实用的。从理论上看,语音信息隐藏技术研究的基础理论还没有得到完善。在信息嵌入和检测的数学模型、信息容量估计、最佳隐藏信息检测、信道编码在数字信息隐藏中的应用、错误概率的界限等问题上还没有一个很圆满的答案。,Thank you!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报