1、运用呼吸系统发出的声音决定呼吸系统状况的方法与装置,专利介绍,装置构成,1、格式化该声音的数字信号为至少一个区块的装置; 2、从该声音的格式化的数字信号来计算一参数的装置; 3、利用隐藏马氏链来计算该参考模块的装置; 4、以计算在该参数与参考模块之间的相似度,来比较该参数与该代表呼吸系统已知状况的参考模块的装置; 5利用该参数与该参考模块间的相似度,决定该参数是否与该参考模块一致,并做出正确选择的模块。,详细步骤,1、接收表示呼吸系统声音的声音信号 2、将该声音信号转换为数字信号 2.1、格式化该数字信号为至少一个区块,该区块由大概25毫秒的数字数据与大概10毫秒的重叠数据所组成 3、从该声音
2、的格式化的数字信号来计算该参数 3.1、从该数字信号计算MFCC系数 3.1.1、使用一FFT转换 3.2、计算约39个参数 4、利用一维ViterbiDecoder来计算该参数与参考模块间的相似度 5、提供一个该呼吸系统的已知状况为输出 6、利用HMM来计算该参考模块 7、储存与该呼吸系统已知状况相对应的参考模块于一储存装置中,诊 断 疾 病 明 细,输入与AD转换,输入包括 一个麦克风 AD转换模块接收该模拟声音信号,对该接收到的模拟声音信号进行取样,并且将该模拟声音信号转换为数字信号。 在一个示范的实例中,该AD模块以大约每秒16000个取样的取样率对模拟声音信号进行了20秒的取样。产生
3、了一组足够铸出正确分析的数字信号 。然而,品质差的模拟声音信号可能需要更多的数字信号。 对于该数字信号进行了处理,即将该数字信号切割成一连串的区块,每一个区块期间为25ms,在连串区块间插有10ms的重叠数据以提供流畅的数据形态。,求取声音数字信号参数MFCC (Mel-Frequency Cepstrum Coefficient),MFCC:Mel频率倒谱系数。 Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。 功率谱的对数值的逆傅氏变换称为倒谱,计算与参考模块的相似度 Viterbi De
4、coder,Viterbi算法是一种最大似然译码算法。 Viterbi算法的基本思路是:以断续的接收码流为基础,逐个计算它与其他所有可能出现的、连续的格状图路径的距离,选出其中可能性(概率)最大的一条作为译码估值输出,计算、学习、训练参考模块 HMM (Hidden Markov Model),隐马尔可夫模型是一个二重马尔可夫随机过程,包括具有状态转移概率的马尔可夫链和输出观测值的一般随机过程,其状态只有通过观测序列的随机过程才能表现出来。 一个HMM 包含两层:一个可观察层和一个隐藏层。,得出诊断结果,语音特征提取,特征提取 就是指从说话人的语音信号中获得一组能够描述语音信号特征参数的过程。
5、 通过不断的实验和探索,人们发现语音信号是声道频率特性和激励信号源两者的共同结果,后者对于某一信号来说常带有一定的随机性,而说话人的个性特征在很大程度上取决于说话人的发音声 因此,音特征参数可以是能量、共振峰值、基音频率等语音参数目前,在语音识别中较为常用的特征参数为MEL倒谱系数MFCC与线性预测倒谱系数LPCC,两者都是将语音从时域变换到倒谱域上 ,前者构造人的听觉模型,以语音通过滤波器组的输出为声学特征,直接通过离散傅立叶变换(DFT)进行变换;后者从人的发声模型角度出发,利用线性预测编码(LPC)技术求倒谱系数,MFCC的分析符合人类的听觉特性,人耳具有一些特殊的功能,能在嘈杂的环境中
6、以及各种异变情况下分辨出各种语音,其中耳蜗起了关键作用 耳蜗实质上就相当于是一个滤波器组,耳蜗滤波作用是在对数频率尺度上进行的,1 000 Hz以下是线性尺度,1 000 Hz以上是对数尺度,这就使人耳对高频敏感根据这一原则研究了一组类似于人耳蜗作用的滤波器即Mel频率滤波器 MFCC是使用傅立叶分析提取的语音特征参数,是类似于指数的形式,它和实际频域之间的关系见下式1 2 式中,Fmel是以MEL为单位的感知频域 ,FHz是以Hz为单位的实际频域将语音信号的频谱变换到感知频域中,能更好地进行模拟听觉过程的处理MFCC和LPCC特征参数在说话人识别中的研究1 Speech Production
7、 Based on the Mel-Frequency Cepstral Coefficients2,MFCC,MFCC分析,不同三角滤波器的实现原理图。 该过滤器或是均匀分布在变形的Mel频率谱上,其优点是:下述三角滤波器都具有相同的形状,可放置在Mel-warped spectrum均匀。另一方面,离散化可能会由于过大的功率谱动态范围是特别困难。 或是非均匀的分布在原来的频谱上。但过滤器就可能不是三角形和对称的了,而是弯的。 如果使用余弦形过滤器,我们有时会看到更低的词错误率,Computing Mel-frequency cepstral coefficients on the powe
8、r spectrum,预加重:通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。预加重用于消除唇辐射的影响和声门效应,进行高频提升。 分帧:根据语音的短时平稳特性,语音可以以帧为单位进行处理,实验中选取的语音帧长为25ms,帧叠为10ms。 加窗:采用hamming窗对一帧语音加窗,以减小吉布斯效应的影响。 快速傅立叶变换(Fast Fourier Transformation, FFT):将时域信号变换成为信号的功率谱。 三角窗滤波:用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器),对信号的功率谱滤波,每一个三角窗滤波器覆盖的范围都近似于人
9、耳的一个临界带宽,以此来模拟人耳的掩蔽效应。 求对数:对三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。 离散余弦变换(Discrete Cosine Transformation, DCT):去除各维信号之间的相关性,将信号映射到低维空间。 倒谱均值减(Cepstrum Mean Subtraction, CMS):CMS可以有效地减小语音输入信道对特征参数的影响。 差分参数:大量实验表明,在语音特征中加入表征语音动态特性的差分参数,能够提高系统的识别性能。 线性鉴别分析(linearity distinction analysis),注释,吉布斯效应 (Gibbs effect
10、) 将具有不连续点的周期函数(如矩形脉冲)进行傅立叶级数展开后,选取有限项进行合成。当选取的项数越多,在所合成的波形中出现的峰起越靠近原信号的不连续点。当选取的项数很大时,该峰起值趋于一个常数,大约等于总跳变值的9%。这种现象称为吉布斯效应。 DCT 离散余弦变换(Discrete Cosine Transform,简称DCT变换)是一种与傅立叶变换紧密相关的数学运算。在傅立叶级数展开式中,如果被展开的函数是实偶函数,那么其傅立叶级数中只包含余弦项,再将其离散化可导出余弦变换,因此称之为离散余弦变换。,基于乘积HMM的双模态语音识别方法,基于FMFCC和HMM的说话人识别,MFCC分析,人耳可
11、听频率范围是20Hz到20KHz. MFCC因为采取的是对数转换,所以在高频段容易造成较严重的失真,一般采用低频MFCC,忽略中高频MFCC,LSP算法分析,线谱对(LSP : line spectrum pairs) 参数由于其良好的内插特性和量化特性,广泛应用于语音编码、语音识别等领域. 多种窄带低码率声码器均采用10 阶线谱对参数作为编码参数. 计算线谱对参数的方法有很多种,有些方法在域进行,有些在x 域进行. 但现有的算法中,绝大多数方法为了保证足够高的精度,造成计算方法复杂、计算量大,实际应用中对实时处理的影响较大. 针对该问题,本文结合实根埃特金迭代法和多项式综合除法在x 域求取L
12、SP 参数,首先利用埃特金迭代法求x =( x) 的一个实数根,再采用多项式综合除法降阶,最后运用费拉里算法求解一元四次方程的根,即可得到LSP 系数. 理论分析和实验结果表明,本文提出的方法APF (Aitken iterative with polynomial synthesis division and Ferraris solution) 能够有效、快速地计算LSP 参数,并且在精度提高1 000倍的情况下,计算量增加得很少. 一种语音信号线谱对参数的优化算法,LSP 线性频谱对 (Line Spectrum Sairs),线谱对(LSP)的属性。 当P(z)的和Q(z)的根是交错并
13、当且仅当根是单调递增的时候,滤波器是稳定的。此外,两个根越近,过滤器在相应的频率谐振越发明显。因为LSP对于噪声的量化并不敏感,稳定性是很容易保证,LSP被广泛用于LPC滤波器量化。线谱频率(LSF)可以进行插值运算。,LSP 线性频谱对 (Line Spectrum Sairs),PLP知觉性线性预测 (Perceptual Linear Predictive),知觉性线性预测(PLP)技术作为一项语音分析的新技术,在提出的已经得到实践审查。 这种技术采用来自听觉系统的精神物理学中的三个概念来估计语音频谱。 (1)关键波段光谱分辨率, (2)平等响度曲线, (3)强度响度功率法则。 它先对语
14、音信号的频谱进行一系列的修正,由一个自回归全极点模型来近似语音频谱。 五阶的全极点模型有利于抑制语音频谱有关细节对于扬声器的依赖。与传统的线性预测(LP)的分析比较,PLP的分析更符合人类的听觉,具有极高的一致性。有效的第二共振峰F2和3.5巴克谱峰的元音知觉融合理论都有很好的应用。 PLP的分析计算有较高的效率并产生低维的语音表示。这些特性多被用于不依赖扬声器的自动语音识别。 Perceptual linear predictive (PLP) analysis of speech,PLP分析,提取PLP特征时,语音信号的频谱通常先进行傅立叶变换,然后再在频域上应用Bark频率上均匀分布的滤
15、波器组来得到仿人类听觉特性的频谱分辨率 这样处理的缺点在于,由于傅立叶变换的频率分辨率在0,2pi上是均匀的,当傅立叶变换的点数不够多时,可能会造成低频部分滤波器组包含的频率信息不够充分,从而影响识别的效果这个现象在相似音的识别中更为明显 基于此,我们采用WDFT根据人类的听觉特性对频谱选择进行改进,选择合适的翘曲参数来拟合频域上非均匀分布的滤波器组,使全通变换前后频率之间的非线形关系和BarkHz之间的非线形关系趋于一致临界带域中的单位精度Bark和频域中的单位精度Hz的转换关系式为频率轴转换到bark频率轴 基于WDFT的语音PLP特征提取算法,注释,翘曲离散傅立叶变换 (Wrapped
16、Discrete Fourier Transform , WDFT)是非均匀DFT较为简便的一种它通过应用全通变换翘曲频率轴来改变频点位置,使得在翘曲频率轴上均匀分布的频点等同于原频率轴上非均匀分布的频点,由此实现在单位圆上非均匀的频率采样通过择翘曲参数,能在不增加DFT长度N 的条件下,将选定频率范围内采样点之间距离拉近,从而得到更高的精度 传统的傅立叶变换在0,2pi的频率范围上只能提供按2pi/N等分的固定频率分辨率,因此在一些需要非均匀频率分辨率的应用中,其性能并不理想。,LPCC线性预测倒谱系数 (Linear Prediction Cepstrum Coefficient),线性预
17、测倒谱系数LPCC在语音识别系统中,通常使用由LPC系数推导出另一种参数,LPCC作为特征参数 倒谱实际上是一种同态信号处理方法,标准的倒谱系数计算流程需要进行FFT变换、对数操作和相位校正等运算,运算比较复杂 在实际计算中,当序列x(n)为最小相位的情况下,可以利用序列x(n)及其复倒谱系数C(n)的递推关系来简化计算,MFCC与PLCC的比较,(1)MFCC参数将线性频标转化为MEL频标,强调语音的低频信息,从而突出了有利于识别的信息,屏蔽了噪声的干扰 LPCC参数是基于线性频标的,它在所有的频率上都是线性的逼近语音,而这与人的听觉特性是不一致的,而且LPCC包含了语音高频部分的大部分噪音
18、细节,这些都会影响系统的性能 (2)MFCC参数无任何前提假设,在各种情况下均可使用而LPCC参数假定所处理的信号为AR信号,对于动态特性较强的辅音,这个假设并不严格成立另外,当噪声存在时,AR信号会变为ARMA信号:Auto-Regressive and Moving Average Model自回归模型/滑动平均模型 其中,H(w)为受噪声污染的信号功率谱,n0为噪声功率,这会给LPC分析的结果带来较大误差因此,对于语音的低频部分MFCC参数的抗噪声能力优于LPCC参数 (3)LPCC参数也继承了LPC的优点,保证了系统的稳定性,并且对元音有较好的描述能力,但对辅音的描述能力比较差;而MF
19、CC是采用滤波器组的方法计算出来的,所以具有良好的识别性能 对于低频语音的识别部分,采用MFCC特征参数在屏蔽噪音和抗噪声两方面的能力都优于采用LPCC特征参数的说话人识别,所以在传统的说话人识别系统中多数都会采用MFCC作为语音特征 MFCC和LPCC特征参数在说话人识别中的研究,SBC次频带编码 (Sub Band Codec),SBC能在中等比特率下传输高质量音频数据的音频编解码算法。编码和解码算法采用余弦变换滤波器进行子带分解和综合,子带信号采用动态比特分配的方法进行量化。 SBC由于其固有的分层性可十分方便地用于实现变速率语音编码。而SBC方案由分带引入的附加时延可通过采用IIR 型
20、分带滤波器得到部分克服。 根据语音分布特点,其主要能量集中在低频部分,因此基带(即对应原语音。0-1kHz频率范围)最重要。事实上,我们在实验中发现,即使仅有这一带,只要讲话速度不太快,已可达相当的可懂度与自然度。所以我们应将有限的比特率优先分配给基带。 将声音数字信号抽样后产生两个子带信号,对这两个子带信号再做一次分带,即得到等问隔划分的四个子带语音信号。或者更多的sub band。,有设计模型的子带涉及几个问题: 1)定义频率子带, 2)在每个子带使用的数字特征, 3)信息应该在哪些时间单元合并, 4)合并技术。,SBC次频带编码 (Sub Band Codec),simple stati
21、c cubic-root compressed short-term critical-band power spectrum energies as the sub-band features for most of the isolated digit experiments 我们用简单的静态立方根压缩短期关键频段功率谱能量作为每个sub band的数字特征 Sub-band based recognition of noisy speech,Viterbi Decoder 维特比解码器,Viterbi算法是一种最大似然译码算法它并不是在网格图上一次比较所有可能的2条路径(序列),而是接收
22、一段,计算、比较一段,选择一段最有可能的码段(分支),从而达到整个码序列是一个有最大似然函数的序列 Viterbi算法的基本思路是:以断续的接收码流为基础,逐个计算它与其他所有可能出现的、连续的格状图路径的距离,选出其中可能性(概率)最大的一条作为译码估值输出 从时间单位m至L ,网格图中2mk个状态中的每一个有一条幸存路径,共有2mk条但在L+m时间单位后,网格上的状态数目减少,幸存路径也相应减少最后到第L+m单位时间,网格图上的状态数目减少,因此仅剩下一条幸存路径这条路径就是要找的具有最大似然函数的路径,也就是译码器输出的估值序列 Viterbi Decoder就在网格图上得到一条最大似然
23、路径。 Viterbi译码算法改进,Viterbi Decoder 维特比解码器,DTW动态时间归整法 (Dynamic Time Warping ),在孤立词语音识别中,最为简单有效的方法是采用DTW (Dynamic Time Warping,动态时间归整)算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法。 用于孤立词识别,DTW算法在训练阶段需要提供大量的语音数据,通过反复计算才能得到模型参数,而DTW算法的训练中几乎不需要额外的计算。所以在孤立词语音识别中,DTW算法仍然得到广泛的应用。 对于单个词汇的识别,DTW显然就
24、是一个好的选择。,参考模板可表示为 R=R(1),R(2),R(m),R(M) 测试模板可表示为 T=T(1),T(2),T(n),T(N) 参考模板与测试模板一般采用相同类型的特征矢量(如MFCC,LPC系数)、相同的帧长、相同的窗函数和相同的帧移。 采用动态规划(DP)的方法 把测试模板的各个帧号n=1N在一个二维直角坐标系中的横轴上标出,把参考模板的各帧号m=1M在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网络,网络中的每一个交叉点(n,m)表示测试模式中某一帧的交汇点。DP算法可以归结为寻找一条通过此网络中若干格点的路径,路径通过的格点即为测试和参考模板中进行计算
25、的帧号。 为了使路径不至于过倾斜,可以约束斜率在0.52的范围内,DTW动态时间归整法 (Dynamic Time Warping ),VQ矢量量化 (Vector Quantization),矢量量化(VQ Vector Quantization)是70年代后期发展起来的一种数据压缩技术基本思想:将若干个标量数据组构成一个矢量,然后在矢量空间给以整体量化,从而压缩了数据而不损失多少信息矢量量化编码也是在图像、语音信号编码技术中研究得较多的新型量化编码方法,它的出现并不仅仅是作为量化器设计而提出的,更多的是将它作为压缩编码方法来研究的。在传统的预测和变换编码中,首先将信号经某种映射变换变成一个
26、数的序列,然后对其一个一个地进行标量量化编码。而在矢量量化编码中,则是把输入数据几个一组地分成许多组,成组地量化编码,即将这些数看成一个k维矢量,然后以矢量为单位逐个矢量进行量化。矢量量化是一种限失真编码,其原理仍可用信息论中的率失真函数理论来分析。而率失真理论指出,即使对无记忆信源,矢量量化编码也总是优于标量量化。,矢量量化就是把一个k维输入矢量x映射为另一个k维量化矢量 即,VQ矢量量化 (Vector Quantization),在矢量量化编码中,关键是码本的建立和码字搜索算法。 码本的生成算法有两种类型,一种是已知信源分布特性的设计算法;另一种是未知信源分布。 码字搜索是矢量量化中的一
27、个最基本问题,矢量量化过程本身实际上就是一个搜索过程,即搜索出与输入最为匹配的码矢。矢量量化中最常用的搜索方法是全搜索算法和树搜索算法。,VQ矢量量化 (Vector Quantization),VQ码字搜索方法,全搜索矢量量化器 定义:将输入矢量与码书中的每一个码字进行比较,根据所选择的失真测度寻找失真最小的码字作为重构矢量树搜索矢量量化器 定义:逐步求近似的过程,中间的码字是起指引路线的作用。 树搜索VQ是以提高空间复杂度换取时间复杂度的降低,性能次于全搜索VQ,HMM隐性马氏链 (Hidden Markov Model),隐马尔可夫模型是一个二重马尔可夫随机过程,包括具有状态转移概率的马
28、尔可夫链和输出观测值的一般随机过程,其状态只有通过观测序列的随机过程才能表现出来。 一个HMM 包含两层:一个可观察层和一个隐藏层。 可观察层是待识别的观察序列,隐藏层是一个马尔可夫过程,即一个有限状态机,其中每个状态转移都带有转移概率。一阶隐马尔可夫模型做了如下两个重要假设:其前提对于一个随机事件,有一个观察值序列O=v1,v2,vm,该事件隐含着一个状态序列S= s1,s2,sn 。 假设1:t时刻的状态q ,向t+1时刻的状态qt+1转移的概率仅仅与qt 有关,而与以往任何时刻的状态无关,即隐藏的状态序列构成一阶马尔可夫链, 假设2:在t时刻输出观测值ot的概率,只取决于当前时刻t所处的
29、状态qt,而与其他的状态无关HMM在自然语言处理领域中的应用研究 ,HMM隐性马氏链 (Hidden Markov Model),HMM可以用3元组来表示:=(A,B,),其中A是状态Si到Sj的转移概率矩阵,B是状态的观察输出概率密度,是状态的初始分布概率。 HMM需要研究的3个基本问题是: 1) 评估问题:给定观察值序列和模型参数 ,即给定模型和观察值序列,求从模型生成观察值序列的概率P。 另:已知HMM模型的各参数,求某一观察序列O在该模型下的极大似然率,即:O =O1Ot,t为观察序列长度; 2)解码问题:给定观察值序列和模型参数 ,求最可能的状态序列。 另:在给定的HMM模型的条件下
30、,求观察序列O最有可能历经的状态序列s; 3)学习问题:对于给定的观察值序列,如何调整模型参数 ,使得观察值出现的概率P最大。 另:在已知样本集合的条件下,如何根据样本集合训练模型并获得模型参数。 问题1可以由前向或者后向算法解决,问题2是典型的状态空间搜索问题,经典的算法有基于动态规划的Viterbi算法, ,问题3是统计学习过程,其学习算法有Baum-Welch算法、梯度算法、Maximum Likelihood算法等.基于FMFCC和HMM的说话人识别 HMM在自然语言处理领域中的应用研究,HMM解决问题的基本步骤,HMM在自然语言处理领域中的应用研究,HMM分析,HMM处理新的数据具有
31、很好的鲁棒性,并且有一套成熟的算法。隐马尔可夫模型的优点是它有强壮的概率统计作为基础 HMM有个明显的缺点就是模型的建立比较困难。而模型的构建恰是使用HMM的关键步骤。 HMM也不是一个非常完美的模型,由于HMM是在假设的前提下成立的,这与实际情况并不相符 多阶的HMM 方法,DTW与HMM的比较,目前,语音识别的匹配主要应用HMM和DTW两种算法。 DTW算法由于没有一个有效地用统计方法进行训练的框架,也不容易将低层和顶层的各种知识用到语音识别算法中,因此在解决大词汇量、连续语音、非特定人语音识别问题时较之HMM算法相形见绌。 HMM是一种用参数表示的,用于描述随机过程统计特性的概率模型。而对于孤立词识别,HMM算法和DTW算法在相同条件下,识别效果相差不大, 又由于DTW算法本身既简单又有效,但HMM算法要复杂得多。它需要在训练阶段提供大量的语音数据,通过反复计算才能得到参数模型,而DTW算法的训练中几乎不需要额外的计算。,注释,欧氏距离(适于短时谱或倒谱参数),也可以用对数似然比距离(适于参数),