1、Ch1 绪论1.1 语音信号处理概述一、语音、语音信号处理的名词解释1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人 类最重要、最有效、最常用和最方便的交换信息的形式。2、语音信号处理:是研究用数字信号 处理技术对语音信号进行处理的一门学科,它是一 门新兴的学科,同 时又是综合性的多学科领域和涉及很广的交叉学科。二、语音学的名词解释(集中备课 )语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。1.2 语音信号处理的发展概况一、语音编码、语音合成、语音识别名词解释(参见大纲)1、
2、语音编码:语音编码技术是伴随着 语音信号的数字化而产生的,目前主要应用在数字 语音通信领域。2、语音合成:语音合成的目的是使 计算机能像人一样说话。3、语音识别:语音识别是使计 算机判断出所说的话得内容。Ch2 基 础知识2.2 语音产生的过程一、语音、清音、浊音1、语音:声音是一种波,能被人耳听到,振动频率在 20Hz-20kHz 之间。语音是声音的一种,它是由人的 发音器官发出的、具有一定语法和意 义的声音。 语音的振动频率最高可达 15kHz 左右。2、人类生成语音过程可分为神 经和肌肉的生理学阶段和产生语音波、传递语音波的 物理阶段。3、浊音、清音:语音由声带振动或不经声带振动来产生,
3、其中由声带振动产生的音 统称为浊音,而不由声 带振动产生的音统称为清音。浊 音中包括所有的元音和一些辅音,清音包括另一部分辅 音。二、语音的产生过程:空气从肺部排出形成气流。空气通过声带时,如果声带是紧绷的,则声带将产生张弛振动,即声带周期性地开启和闭合。声 带开启时,空气流从声 门喷射出来,形成一个脉冲;声带闭 合时相应于脉冲序列的间歇期。三、基音周期、基音频率基音周期:声带开启和闭合一次的时间即振动周期称为音调周期或基音周期。基音频率:基音周期的倒数称为基音频率, 简称为基频。四、浊音、清音、爆破音的激励源对于浊音、清音和爆破音来说 ,激励源是不同的,浊音语音是位于声门处的准周期脉冲序列,
4、清音的激励源是位于声道的某个收缩区的空气湍流,而 爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。五、共振峰的概念(参见大纲)1、共振峰名词解释:声道是一个分布参数系 统,它是一个谐振腔,有许多谐振频 率,称 为共振峰,它是声道的重要声学特征。2、共振峰的公式:Fn=(2n-1)c/4L(会运用公式进行计算,填空、选择)3、谐振点间的间隔不同,但平均仍然大约为每 1KHz有一个谐振点。4、共振峰特性,决定信号频谱的总轮廓,或称谱包络。语音的频率特性主要是由共振峰决定的。声道的共振峰特性决定所发声音的频谱特性(音色)。5、头三个共振峰最重要。2.3 语音信号的特性一、语音的物理属
5、性(集中备课 )语音的物理性质包括音质、音 调、音 强、音长等特性。语音是人的发音器官发出的一种声波,具有声音的物理属性。音质是一种声音区别于其他声音的基本特征 ;音调指声音的高低,取决于声波的频率:频率高则音调高, 频率低则音调低;响度是指声音的强弱,又称音量,它是由声波震动幅度决定的;声音的长短也称音长,它取决于发音持续时间的长短。二、音素、音节、单词、句子的基本概念以及它 们之间的关系(集中备课)(1)音素是语音的最小、最基本的 组成单位,音素都有其独立的各不相同的发音方法和发音部位,它是使听者能区别一个单词和另一个单词的声音的基础。(2)音节是最小的语言片段,一个音 节由一个或几个音素
6、组成。(3)单词是由音节结合而成的更大单位,是有意 义的语言的最小单位。(4)句子是单词的进一步组合。三、汉语的特点是:音素少、音节少。汉语中的音节即字音由声母、韵母和声调按一定方式构成,即声、韵、调三个因素构成。四、语音的时间波形和频谱特性(集中 备课)(答题关键点抓住:时域卷积,频域相乘)1、元音的时间波形如图 2-2 所示(P10)特点:其声门波形为脉冲序列,脉冲之 间的间隔为基音周期,用 g(t)表示。2、声道的输出如图 2-3 所示(P11)特点:是 g(t)与冲激响应 h(t)的卷积,其中,每个高峰代表一个新的声门脉冲的起点,它 们之间的间隔等于声门脉冲的周期。3、元音信号的频谱如
7、图 2-6 所示(P12)特点:g(t)的频域为 G(f),冲激 h(t)的频域表示为 H(f),输出的频谱为 G(f)H(f),如图 2-6 所示。其中虚 线称为谱包络,其形状是由 H(f)和 G(f)的包络乘积得到的。五、清音和浊音的频谱特性清音和浊音的波形有很大的不同。 清音的波形类似于白噪声,具有很弱的振幅;元音(浊音)具有明显的准周期性,并具有较强的振幅。它们的周期对应的频率就是基音频率。如果考察其中一个周期,还可以大致看出其频谱特性。2.4 语音信号产生的数学模型一、语音信号的数字模型(集中 备课)语音信号数字模型的概念:语音信号被看成是线性时不变系统(声道)在随机噪声或准调周期脉
8、冲序列激励下的输出。在满足这样的假设条件下,产生了语音信号的基本数字模型,是语音处理技术 的基础。二、浊音、清音激励源1、发不同性质的音时,激励的情况是不同的,大致分为两类:(1)发浊音时,此时气流在通 过绷紧的声带时,冲激声带产生振动,使声门处形成 准周期性的脉冲串。声 带绷紧的程度不同时,振动频率也不同,这个频率就是音调频率,其倒数为音调周期。不同人的音调周期是不同的,男子大,女子小,老人大,小孩低。 (2)发清音时,此 时声带松弛而不振动,气流通过声门 直接进入声道。2、语音信号的产生模型 P16(重点注意,框 图中有些符号 visio 软件中没有,这个框图就自己补充上吧!)三、语音信号
9、数字模型的组成等(集中 备课)1、语音信号数字模型由激励模型 、声道模型和辐射模型组成。2、声道模型包括声管模型和共振峰模型 。3、共振峰模型又可分为级联型 、并联型和混合型。特点:(1)级联型比较简单,可用于描述一般的元音。级联的级数取决于声道的长度。 (2)腔体具有反谐振特性时可采用并联结构,它比级联 复杂,每个 谐振器的幅度要独立控制。 (3)混合型是将级联 型和并联型结合起来的、 较完备的一种共振峰模型。该模型能 够根据不同性质的语音进行切换。四、语音信号数字模型的框图 :(P21 图 2-18,自己补充)图中,清/浊音开关模拟了加在声道上的激励的改变情况:当开关接在浊音位置时,激励源
10、是 准周期脉冲序列发生器,其重复频率由基音频率来确定;当开关接在 清音位置时,激励源是随机噪声发生器 。2.5 语音感知、 语音感知1、人耳听到声音后,经过大脑的处理才能变成确定的含义,这就是对语音的感知。2、人耳能听到的声音,频率范围在 16Hz-16kHz 之间,年轻人的上限可以延伸至 20kHz,老年人则衰退到10kHz。二、声音的三要素(集中备课)声音可以用幅度、频率和相位三个物理量来描述,但相对于人耳的感觉,声音的描述有其 三要素,即: 响度、音调和音色。1、响度:响度是人耳对声音强 弱程度的主观反应,响度取决于声音的幅度,主要是声压的函数,但和 频率和波形也有关,单位是宋(sone
11、)。人耳对 30004000Hz 的声音感觉最灵敏。2、音调:也称音高,是一种主观心理量,是人耳对声音频率高低的感受,即与声音的 频率有关。音 调与声音频率是近似的对数关系,单位是美( mel)。3、音色:也叫音质,反映了声音属性。人根据音色在主观感觉上区别具有相同响度和音调的两个声音。三、听觉掩蔽:人类听觉中存在一种 现象,即两个音同 时存在时,一个声音有可能受到另一个声音的干扰或压制,即一个音被另一音掩盖,这称 为听觉掩蔽。Ch3 时 域分析3.1 概述一、为什么时域分析要采用短 时分析技术(大纲)(集中备课)1、短时分析技术的基本概念: 语音信号是一种随时间而变化的信号,可能是浊音激励也
12、可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短 时间内 10-30ms,语音信号近似不变。于是,我们把 变化的语音信号分成一些相继的短时间段来处理。而每一段 时间段具有固定的特性,这种方法称为“ 短时” 处理方法。短时方法是用平稳信号的处理方法处理非平稳信号的关键。2、语音信号分析的分类(1)根据所分析的参数不同,语 音信号分析可分为时域、频域、倒谱域。(2)将语音的特征表示和提取方法分为模型分析法和非模型分析法。模型分析法 包括共振峰模型分析和声管模型分析;非模型分析法包括时域分析法、 频域分析法及同态分析法。3、语音信号特点:(1)表示语
13、音信号比 较直观、物理意义明确;(2)实现起来比较简单、运算量少;( 3)可以得到语音的一些重要参数。3.2 数字化和预处理一、取样和量化(集中备课)1、为了将原始的模拟信号转换为 数字信号,必 须经过取样和量化两个步骤,从而得到在 时间和幅度上均离散的数字语音信号。2、取样是将时间上连续的语音信号离散化 为一个样本序列。根据取样定理,当取样频率大于两倍信号带宽时,取样过程不会丢失信息,且从取 样信号中可以精确地重构原始信号的波形。3、量化是指将取样后得到的样 本序列的幅度再离散化,量化过程是将整个幅度 值分割为有限个区间,将落入同一区间的样本赋予相同的幅度值。4、常见语音的采样频率(1)电话
14、带宽语音(长途通信、移 动通信、 卫星通信)取样率为 8kHz;(2)实际语音信号处理,取样率 为 10kHz;(3)为实现更高质量的语音合成,取 样率提高到 15-20kHz。二、量化噪声的概念及特点(集中备课)1、量化噪声:量化后信号值与原信号之 间的差值称为量化误差,即量化噪声。2、量化信噪比的计算公式:SNR(dB )=6.02B-7.2三、语音信号系统框图(为什么要 进行预处理)(集中备课)系统框图:P26 图 3-4反混叠滤波平滑滤波A / D 变换D / A 变换分析处理合成处理传输或存储语音输入语音输出(1)反混叠滤波器的作用:它是一个具有良好截止特性的模拟低通滤波器,主要是为
15、了防止混叠失真和噪声干扰。(2)平滑滤波器的作用:对重构的语音波形的高次谐波起到平滑作用,以去除高次谐波失真。3.3 短时能量分析一、语音信号的能量分析:语音信号的能量分析是基于 语音信号能量随时间有相当大的变化,特 别是清音段的能量一般比浊音段的小得多。能量分析包括能量和幅度两个方面。二、直角窗和海明窗(集中备课 )1、不同的窗口选择将决定短时 能量特性,即窗口的形状和长度。2、直角窗和海明窗的比较(大 纲)(1)从窗口形状上:海明窗的带宽大约是同等宽度矩形窗带宽的 2 倍。此外,海明窗在通带外的衰减比矩形窗小得多,而且通带与阻带的起伏比 较小。 直角窗的谱平滑较好,但波形细节丢失,海明窗刚
16、好相反。(2)从窗口长度上(窗口选择原则): 选择太大,N则短时能量 随时间变化就很小,不能充分反映 语音信nE号的幅度变化;而 选择得小,即 选择 等于或小于一N个基音周期时, 将按照信号波形的 细微变化而起伏不定,以致短时能量 不够匀化和平滑。因此,折衷考虑n的 值,在通常情况下,当取样频率为 10KHz 时,=100-200 被 认为是合适的。三、短时能量的概念及其结论 (集中备课)短时平均能量反映了语音能量随着时间缓慢变化的规律。它的主要用途有:1、可以区分清音段和浊音段;2、可以区分声母与韵母的分界、无声和有声的分界、连字的分界等。3、作为一种超音段信息,用于语音识别中。3.4 短时
17、过零分析一、过零分析、过零率和平均过零数的名词解释(大纲)1、过零分析是语音时域分析中最 简单的一种, 对于离散时间信号的相邻两个取样值具有不同的符号时,便出现“过零”现象。单位时间过零的次数叫作“过零率”。2、平均过零数 Z:单位时间内的过零数(Z=2f0/fs 过零/样本)。二、短时平均过零数的实现(集中 备课)1、实现框图:(P32 图 3-12,自己补充)2、文字描述:首先对语音信号序列 x(n)进行成对的查对采样以确定是否发生过零,若 发生符号变化, 则表示有一次过零;而后进行一阶差分计算,再求 绝对值,最后 进行低通滤波。三、短时过零分析的用途(包含清音、浊音的各自特点,集中备课)
18、1、短时平均过零数可以用来区分清音和 浊音。 发浊音时, 语音能量约集中于 3kHz 以下。而发清音时,多数能量集中在较高的频谱上。浊 音具有较低的平均过零数,而清音时具有较高的平均过零数。 可见 P33 的图 3-132、利用短时平均过零数还可以从背景噪声中找出语音信号,用于判断寂静无语 音和有语音的起点和终点位置。四、P33 图 3-14 说明的问题是什么(集中备课)由图可见,这三句话的平均 过零数变换都很大,高平均过零数对应于清音,低平均 过零数对应于浊音;但是清音和浊音的变化非常明显。因而,短时平均过零数可用于清音和浊音的大分类上。3.5 短时相关分析一、短时自相关分析得到语音信号有何
19、特点和用途(大 纲)1、对于浊音语音来说,短时自相关函数具有明显的峰值且呈周期分布,而对于清音来 说, 则没有很强的自相关周期峰,其性质类似于噪声。2、短时自相关函数是语音信号 时域分析的重要参量。它有两个用途,一是判断清 /浊音,并估 计浊音的基音周期;二是它的傅里叶变换是短时谱。3、短时平均幅度差函数( AMDF)能够替代自相关函数进行语音分析,基于语音的 浊音具有准周期性。注:短时能量分析、短时过零分析和短 时相关分析都能够用来区分清/浊音。Ch4 短时傅里叶分析4.1 概述一、傅里叶分析在信号分析与处理中的地位与作用在语音信号处理中,傅里叶表示在 传统上一直起主要作用。其原因一方面在于
20、稳态语 音的产生模型由线性系统组成,此系统被一随时间 作周期变化或随机变化的源所激励,因而系统输出频谱 反映了激励与声道频率响应特性。另一方面,语音信号的频谱具有非常明显的语言声学意义,可以获得某些重要的 语音特征。同 时,语音的感知过程与人类听觉系统具有频谱分析功能是密切相关的。二、短时傅里叶分析的重要性。短时傅里叶分析是分析缓慢时变频谱的一种简便方法,是用稳态分析方法处理非 稳态信号的一种方法,在 语音处理中是一个非常重要的工具。三、分类从广义上,语音信号的频域分析包括 频谱、功率 谱、倒谱、 频谱包络分析等。常用的频域分析方法有带通滤波器组法、傅里叶分析、线性预测 分析等。4.2 短时傅
21、里叶变换一、短时傅里叶变换的定义(集中 备课)语音信号可以认为是局部平稳的,所以可以 对某一帧语音进行傅里叶变换,即短 时傅里叶变换,定 义为:mnjj exeX)()(n离散的短时傅里叶变换,令 ,2kN2 2()()k kmj jN Nnnmexne 01二、短时傅里叶变换的两种解 释(集中备课)一是标准傅里叶变换的解释,二是 滤波器的解释。三、标准傅里叶变换解释1、与序列的傅里叶变换相同,短时傅里叶变换随着 作周期变 化,周期为 2。2、窗口序列具有的特性:(1)频率分辨率高,即主瓣狭窄、尖锐;(2)通过卷积,在其他频率成分 产生的频谱泄漏少,即旁瓣衰减大。3、海明窗与直角窗(矩形窗)对
22、浊 音语音的频谱分析比较它们在基音谐波、共振峰结构以及 频谱具有相似性,但其频谱间也具有差别。 (1)是基音 谐波尖锐度增加, 这是因为矩形窗频率分辨率较高;(2)矩形窗较高的旁瓣产生了一个类似于噪声的频谱。因此,在语音频谱分析中极少采用矩形窗。窗口宽度与短时傅里叶变换特性之间的关系,即用窄窗可得到好的时间分辨率,用 宽窗可得到好的频率分辨率。四、滤波器的解释(P47 的图 4-4 和图 4-5 的 a 图)1、第一种形式的滤波器为低通 滤波器;第二种形式的滤波器为带通滤波器。低通滤波器的解释形式是:在输入端进行调制,乘以 相当于将 的频谱从 移到零频处,)(nxnje)(x为窄带低通滤波器;
23、带通滤波器的解释形式是:在输出端进行调制,此 时先对信号进行带通滤波,滤波器的 单位函数响应为,而调制后输出的是中心 频率为 的短时谱。nje)(4.3 短时傅里叶变换的取样率一、时间取样率、频域取样率和总取样率的相关概念1、时间取样率2B=2fs/N 直角窗2B=4fs/N 海明窗2、频域取样率为使恢复的时域信号不产生混叠失真,需 满足条件LN(取 样频率 L取样点 N)。3、总取样率 SR(单位是 Hz)SR=时域取样率*频域取样率=2B*L=2BLSR=2fsL/N 直角窗SR=4fsL/N 海明窗4.4 语音信号的短时综合一、语音的短时综合两种经典的方法是: 滤波器组求和法和快速傅里叶
24、变换求和法。滤波器组求和法见 P51 的图 4-7输出信号为滤波器组中每个通带输出信号的总和,在恢复时这些通带信号被移回到原来的中心频率上。Ch5 同 态滤波(同态信号 处理)及倒谱分析5.1 概述一、根据语音信号的产生模型,可以将其用一个线性非时变系统的输出表示,即看做是 声门激励信号和声道冲激响应的卷积。二、为了分离加性组合信号,常采用线性滤波方法;而为了分离非加性组合信号,常采用 同态滤波技术。5.2 同态信号处理的基本原理一、同态信号处理的概念同态信号处理就是将非线性问题转化为线性问题来处理,按处理的信号可分为乘 积同态处理和卷积同态处理。二、同态信号处理的实现框图 、基本原理 (要掌
25、握公式的推导 P57)任何同态系统都可以表示为三个同态系统的级联,框图如图 5-2 所示。即同态系统可分解为两个特征系统和一个线性系统。在同态系统的组成中第一个系统以若干信号的卷积作为输入,并将它变换成对应输 出的相加性组合。第二个系统是一个普通的线性系统,服从叠加定理。第三个系统是第一个系统的逆变换,即它将信号的相加性 组合反变换为卷积组合。特征系统和逆特征系 统如图 5-3 所示。推导公式详见 P57 的(5-1) (5-8)共 8 个公式,自行 补充。5.3 复倒谱和倒谱一、复倒谱和倒谱的概念复倒谱: 是一个时域序列,我们称 是 的复()xn()xn倒谱域,简称为复倒谱倒谱:与复倒谱类似
26、,如果 和 分别是 和1()c21()倒谱,并且 ;那么 的倒2()x谱为 。12()cnn5.4 两个卷积分量复倒谱的性质一、一个周期冲激的有限长度序列,其复倒谱也是一个周期冲激序列,并且长度 Np 不变,只是序列 变为无限长度序列。二、声道冲激响应序列复倒谱 的性质1、 是双边 序列,存在于-n。()xn2、 是衰减序列。3、 随|n|增大而衰减的速度至少比 1/|n|快。4、如果 x(n)是最小相位序列,即极零点均在 z 平面单位圆内,此时 只在 n0 时有值,即 是因果序()xn()xn列。最小相位信号序列的复倒 谱是因果序列。5、如果 x(n)是最大相位序列,即极零点均在 z 平面单
27、位圆外,此时 只在 n0 时有值, 为左边序列。 最大()相位信号序列的复倒谱是左边序列。5.5 避免相位卷绕的算法一、避免相位卷绕求复倒谱的方法包括: 微分法、 最小相位信号法、递推法。Ch6 线性预测 分析(LPC)6.1 概述一、线性预测分析的基本概念线性预测分析的基本概念是,一个 语音的抽样能够用过去若干个语音抽样的线性组合来逼近。通 过使实际语音抽样和线性预测抽样之间差值的平方和(在一个有限间隔上)达到最小值,即进行最小均方 误差的逼近,能 够决定唯一的一组预测系数。线性预测分析参数包括 LPC 参数、 PARCOR 参数及LSP 参数。6.2 线性预测分析的基本原理一、线性预测模型
28、采用全极点模型的原因全极点模型最易于计算,对全极点模型作参数估 计是对线性方程组的求解过程;有时无法知道输入序列;人的听觉对于那种只能用零点来表示的频谱陡峭谷点是迟钝的;如果不考虑鼻音和摩擦音,那么 语音的声道传递函数就是一个全极点模型。二、全极点模型非鼻音浊 音语音极零点模型鼻音和摩擦音三、1、LPC 谱的特点是对于浊音信号谱在谐波成分处的匹配效果要远比谐波之间好得多。2、LPC 谱对其他 谱的优点是可以很好地表示 共振峰结构而不出现额外的峰起和起伏。6.4 线性预测分析的解法(1)一、线性预测的经典解法有两种,一种是自相关法,一种是协方差法,另外还有格型法。二、自相关法和协方差法的比 较1
29、、就信号的特性而言,自相关法适用于平稳信号,而协方差法适用于非平稳信号。2、自相关法对摩擦音能给出比 较好的结果,而 协方差法对于周期性语音可以给出比较好的结果。3、自相关函数需加窗,求得的预测系数精度不高,而协方差法无需加窗,计算精度 较高,但 稳定性得不到保证。4、自相关法用定点运算有其优 点,更适合于硬件 实现;而协方差法的一个困难在于对中间量的比例运算。6.5 线性预测分析的解法(2)一、反射系数的概念在声管模型中,声道被模 拟成一系列长度不同,截面积为 Ai 的声管的级联,ki 规定了声波在各声管段边界处的反射量;而这里的每一个格型网络就相当于一个小声管段,ki 反映了第 i 节格型
30、网络处的反射,故称 k1-kp 为 p级格型滤波器的反射系数。二、格型法的优点与自相关法和协方差法相比较,格型法具有的 优点是:1、反射系数可被直接用于计算 预测系数,格型 滤波器的级数等于预测系数的个数。2、滤波器的不稳定会导致输出 语音信号无规律地振荡。格型法的稳定性可由其反射系数的 值来判定。三、格型法的求解正向格型法、反向格型法、几何平均格型法、伯格法、协方差格型法。6.6 线性预测分析应用LPC 谱估计和 LPC 复倒谱、 线性预测分析(LPC)的阶数 P 的选取原则(大纲)首先要保证有足够的极点来模拟声道响应的谐振结构,但 P 值达到 12-14 后,若 进一步增加则误差改善很小。
31、二、线性预测分析中,帧长度 N线性预测分析中,分析帧长度 N 同样重要, N 尽可能小有好处,在 LPC 线性方程 组求解中,计算量都与 N成正比。但谱估计的精度随 N 的增加而提高。通常取 N为 2-3 个 基音周期长度。Ch7 矢量量化 VQ7.1 概述一、量化可以分为两类:标量量化 和矢量量化。二、矢量量化 VQ 的基本概念矢量量化是将若干个取样信号分成一组,即构成一个矢量,然后对此矢量一次进 行量化,即作 为一个整体进行量化。三、矢量量化的理论依据与优 越性(大纲)根据仙农信息论可以得出,矢量量化 总是优于标量量化,且矢量维数越大性能越 优越。因 为矢量量化有效利用了矢量中各分量间的各
32、种相互关联的性质。采用矢量量化技术对信号波形数据进行压缩,可以 获得非常高的压缩比。7.2 矢量量化的基本原理一、矢量量化的过程(VQ 的基本原理)(大纲)将语音信号波形的 K 个样点的每一 帧,或有 K 个参数的每一帧参数,构成 K 维空间中的一个矢量,然后 对这个矢量进行量化。原理框图见 P95 图 7-27.3 失真测度一、失真测度必须具备的几个特性必须在主观评价上有意义;必须是易于处理的;平均失真存在且可计算;易于硬件实现。7.4 最佳矢量量化器和码本的设计一、在矢量量化器的最佳设计 中,重要的 问题是如何划分量化区间和确定矢量量化。矢量量化器最佳设计的两个条件是:最佳划分和最佳码书。
33、二、几种初始码书的生成方法包括: 随机选取法、 分裂法、乘积码书法。三、维数:K1,大小为 M1 的码书维数:K-K1,大小为 M2 的码书得到一个:维数:K,大小为 M1*M2 的码书7.5 降低复杂度的矢量量化系统一、矢量量化器的研究主要是围绕着降低速率、减少失真和降低复杂度展开的。速率、失真和复杂度是矢量量化器的三个关键问题。三、降低复杂度的设计方法包括两 类:无记忆的矢量量化器和有记忆的矢量量化器。四、无记忆的矢量量化器和有 记忆的矢量量化器的概念及区别无记忆的矢量量化器是指量化每一个矢量时都不依赖于此矢量前面的其他矢量,即每一个矢量都是独立量化的。有记忆的矢量量化器与无记忆的矢量量化
34、器不同,它是量化每一个输入矢量时,不 仅与此矢量本身有关,而且也与其前面的矢量有关。五、无记忆的矢量量化系统包括 树形搜索的矢量量化系统和多级矢量量化系统。有记忆的矢量量化分为反馈矢量量化和自适应矢量量化两类。Ch9 基音 检测分析9.1 基音检测一、基音检测的重要性和难点(大 纲)基音的提取和估计是语音信号处理中十分重要的一个问题,准确地检测语音信号的基音周期 对于高质量的语音分析与合成、语音压缩编码 、语音识别和说话人确认等具有重要意义。在低速率语 音编码中,准确的基音 检测是非常关键的,它直接影响到整个系 统的性能。二、基音检测的三个研究方面1、稳定并提取准周期性信号的周期性方法;2、因
35、周期混乱,采取基音提取误差补偿的方法;3、消除声道影响的方法。三、基音检测的三种方法:波形估 计法、相关 处理法和变换法。1、波形估计法包括:并行处理法、数据减少法、过零数法;2、相关处理法包括:自相关法、SIFT 法、AMDF 法;3、变换法:倒谱法、循环直方图。P118 表 9-1 重点看四、清/浊音判断的辅助参量1、语音信号能量2、过零数3、自相关函数4、线性预测系数五、常用的几种基音检测方法包括: 自相关法、 并行处理法、倒谱法、简化逆滤波法。9.2 共振峰估值一、共振峰估计中存在的问题1、虚假峰值2、共振峰合并3、高基音语音二、几种常用的提取共振峰特性的方法1、带通滤波器组法2、离散
36、傅立叶变换3、倒谱法4、LPC 法三、浊音和清音时 DFT 谱特性比 较1、浊音时DFT 得到的频谱受基频谐波的影响,最大 值只能出现在谐波频率上,因此共振峰 测定误差较大。2、清音时此时信号具有随机噪声的特点,其频谱不具有离散谐波特性,但其包络基本上反映了声道的特性。对其频谱进行线性平滑而得到谱包络,并用一个峰 值搜索算法来确定峰值。四、浊音和清音时倒谱法检测 效果对比1、浊音时,若频谱包络的变换和基音峰值的变换在倒谱域中的间隔足够大,则前者容易 识别。2、清音时,声门激励序列具有噪声特性,其倒谱没有明显峰值,且倒谱分布于从低倒 谱域到高倒谱域的很宽的范围之内,因而在低倒谱 域对声道响应的信
37、息产生了影响。五、倒谱法难以解决的两个问题1、并不是所有的谱峰都为共振峰2、带宽的计算六、LPC 法进行共振峰估 计的两个方案1、求根法2、LPC 谱估计七、LPC 法的优 点和缺点优点:1、通过对预测多项式的分解能 够精确地决定共振峰的频率和带宽。2、能很好的表示共振峰结构而不出 现额外的峰起和起伏。3、额外的极点一般容易排除。缺点:用一个全极点模型逼近语音谱,对于含有零点的某些音来说,根反映了极零点的复合效 应,因而无法区分 这些根是相应于零点还是极点,或完全与声道的 谐振极点有关。Ch10 语音编码(1) 波形编码+声码器技术10.1 概述一、语音编码的目的语音编码的目的是在保持可以接受
38、的失真的情况下尽可能少的比特数表示语音。三、传输码率(数码率)的概念是指传输每秒语音信号所需的比特数,也称 为数码率。四、语音压缩编码需要在保持可懂度与音 质、 降低数码率和降低编码过程的计算代价三个方面折中。五、语音信号数字传输的优点 P1351、信道引起的噪声和失真可基本消除;2、保密性好;3、便于存储和选取及其他处理;4、便于和其他数字信号一起传输 、交 换等;六、语音编码的两类应用1、语音信号的数字传输2、语音信号的数字存储七、语音编码的分类1、波形编码:针对语音波形进 行编码,而尽量保持输入波形不变,即恢复的语音信号基本上与 输入语音信号波形相同。这类编码将语音信号作 为一般的波形信
39、号处理,具有适应性强、语音质量好等优点。2、声码器技术:先对语音信号 进行分析,提取出参数,对参数进行编码,在解码后由这些参数重新合成重构的语音信号,使得到的信号听起来与输入语音相同,而不是对语音信号的波形直接处理,因而恢复信号与原信号不必保持波形相同。10.2 语音信号的压缩编码原理一、语音压缩的必要性(大纲)语音编码的目的是在保持可以接受的失真情况下,采用尽可能少的比特数表示语音。如果 对语音直接数字化,则传输或存储语音的数据量太大。为了降低传输或存储的费用,必须对其压缩。二、语音压缩的两个基本依据对语音进行压缩编码的基本依据有两个。一个是从产生语音的物理机理和语言结构的性质来看,语音信号
40、中存在较大的冗余度。第二个依据是利用人类听觉的某些特性。三、冗余度的概念分客观冗余和主观冗余。客观冗余包括:1、语音信号样本间相关性很强 ;2、浊音语音段具有准周期性;3、声道的形状及其变化比较缓 慢;4、传输码值的概率分布式非均匀的。其中前三种冗余度由语音信号的产生机理所决定,最后一种冗余度与所采用的编码方法有关。主观冗余包括:1、人的听觉生理-心理特性对于语音感知的影响存在听觉掩蔽现象;2、人的听觉对低频端比较敏感,对高频端不太敏感;3、人耳对语音信号的相位变化不敏感;4、人耳听觉特性对语音幅度分辨率是有限的。四、语音压缩编码需考虑的因素1、输入语音信号的特点;2、传输比特率的限制3、对输
41、出重构语音的音质要求五、语音通信质量的分类语音通信中语音质量分为四等(质量越来越差, 带宽越来越小):1、广播质量2、长途电话质量3、通信质量4、合成质量六、两种压缩编码方式:波形编码 和声码器的比较1、波形编码的目的是在给定传输 比特率下,使重构误差最小,采用信噪比作为评 定标准。声 码器音质的好坏由主观评价,缺乏客观依据。2、波形编码的语音质量好,但降低比特率困难。声码器语音的自然度、可懂度差,受噪声和误码的影响大,算法复杂。10.3 脉冲编码调制及其自适应一、脉冲编码调制(PCM)包括 均匀 PCM 和非均匀 PCM。二、PCM 的定义将语音变换成与其幅度成正比的二进制序列,并用脉冲对采
42、样幅度进行编码,称 为脉冲编码调制。三、均匀 PCM 中,信噪比与量化字长的关系SNR(dB)=6.02B-7.2四、非均匀 PCM1、基本思想:对大幅度的样本使用大的 ,对小幅度的样本使用小的 ;在接收端按此还原。2、两种非均匀量化的方法:A 律和 律。我国采用的是 A 律;美国采用的是 律。五、为什么语音信号采用非均匀量化(集中 备课)均匀量化有一个缺点,在信号动态范围较大而方差较小时,其信噪比将下降,由于语音信号大量集中在低幅度上,因而,可利用非均匀量化,这种量化在低电平上量化阶梯最密集,可达到最大信噪比。六、自适应 PCM(APCM)1、原理:它是使量化器的特性自适应于输入信号的幅值变
43、化,或使量化器的增益 G 随着幅值而变化从而使量化前信号的能量为恒定值。2、按自适应参数的来源划分,自适应量化分为前馈和反馈两种。3、原理框图(一个是 匹配自适应,一个是 G 匹配自适应,如图 10-6 所示)10.4 预测编码调制 PC 及其自适应一、预测编码1、定义:在接收端,使用与发送端相同的预测器,就可恢复原信号。这种编码方式称 为预测编码。2、预测编码分为:差分脉冲编码调 制 DPCM 和增量调制 DM。二、短时预测和长时预测短时预测:利用比较相邻的相本值的预测,是 频谱包络的预测。长时预测:基于基音周期的预测,是 频谱细微结构的预测。三、噪声整形的概念能使噪声谱随语音频谱的包络变化
44、, 则语音共振峰的频率成分就必然会掩盖量化噪声,这种技术称为噪声整形。10.5 自适 应差分脉冲 编码调 制(ADPCM)及自适应增量调制(ADM)一、DPCM、ADPCM 和 APPDPCMDPCM(差分脉冲编码调制):对相邻样本间的差信号进行编码,可谋求信息量的 压缩, 这种编码方式称为DPCM。ADPCM(自适应差分脉冲编码调制):采用自适应量化及高阶自适应预测的 DPCM。在 ADPCM 的基础上加上基音预测器的量化编码系统,称为 APPDPCM(带有自适 应基音周期预测的差分脉冲编码调制)。见图 10-14二、ADPCM 的国际标准采用 ADPCM 作为长途传输中的一种新的国际通用语
45、音编码方案。这种 ADPCM 可达到标准 64kbit/sPCM 的语音传输质量,并具有很好的抗 误码性能。三、增量调制(DM)定义DM 是一种特殊简化的 DPCM,是一种极限情况,只用 1bit 的量化器。最大的特点是简单,易于实现。五、斜率过载和颗粒噪声1、斜率过载:在 DM 中,与量化 阶梯 相比,当语音波形幅度发生急剧变化时, 译码波形不能充分跟踪这种急剧变化而必然产生失真,称 为斜率过载。2、噪声颗粒:在没有输入语音的无声状 态时,或者是信号幅度为固定值时,量化 输出都将呈现 0、1 交替的序列,而译码后的波形只是 的重复增减,这种噪声称为颗粒噪声。自适应增量调制 ADM 是克服斜率
46、过载和颗粒噪声最理想的方法。六、自适应增量调制 ADM 的定义根据输入语信号的幅度或方差变化的信息自适应的改变 值。即:在语音信号的幅度变化不大时,取较小的 值 以减小颗粒噪声;在语音信号幅度变化大时,取较大的 值以减小斜率过载失真。10.6 子带编码 (SBC)一、频域编码的两个基本原则1、通过合适的滤波或变换,在频域上得到数目较少、相关性较小的分量,从而提高 编码效率;2、接受者所感知的失真信息是用来提高语音编码的性能。二、子带编码的概念与实现SBC 也称为频带分割编码 ,是在频域上寻求语音压缩途径的编码方法。它不对信号 进行直接变换,而是首先使用带通滤波器组将语音信号分割成若干个子带,用
47、 调制的方法对滤波后的信号进行频谱平移变成低通信号,再利用奈奎斯特速率对其进行取样,最后 进行编码处理。三、SBC 的优点SBC 的优点是对应于人的听 觉特性,可以比较容易地考虑噪声的抑制:即各子带可以选用不同的量化参数以分别控制其信噪比,满足主观 听觉的要求。量化噪声只能出现在各被分割的频带内,对 其他频带没有任何影响,可以较轻易地控制噪声谱。四、正交镜像滤波法 QMF 的特点:上子带滤波器的频率响应是下子带滤波器频率响应的镜像。10.7 自适应变换编码(ATC)一、变换编码 TC、自适应变换编码 ATC 的基本概念(大纲)变换编码是一种优秀的高质量的语音压缩编码方法,它将时域的语音信号变换
48、到频域, 变换后的数值表示信号中不同频率分量的强度,然后将 这些变换系数按照比特分配的结果进行量化编码。自适应变换编码是一种变换编码,它与 SBC 一样,也是在频域上寻求语音压缩的途径,是在 频域上分割信号的编码方式,但比 SBC 增加了相当大的自由度。 这种方法是对信号进行正交变换以降低信号相邻样本间的冗余度。二、DCT 和 KLT 的定义及比较DCT:离散余弦变换KLT:简称为卡洛变换DCT 具有的优点:1、DCT 与 KLT 相比,频域变换明确,与人的听 觉频率分析机理相对应,容易控制噪声的 频率范围。2、DCT 提供的性能一般在 KLT 的 1-2dB 之内,KLT 计算量大。3、DC
49、T 运算量少、数据量少,无需传输特征矢量。4、DCT 比 DFT 变换效率高。5、DCT 与 DFT 相比,在端点取出波形的影响 较小,在频域区的畸变小。Ch11 语音 编码(2) 声码器技术及混合编码11.1 概述一、语音参数编码、声码器的基本概念1、语音参数编码通过对语音信号的参数 进行提取及编码,力图使重建语音信号具有尽可能高的可懂度,即保持原语音的语意。这类编码 的优点是编码率低,可低至2.4kbit/s 以下。2、参数编码的基础是语音产生的数学模型。实现参数编码的器件称为声码器,主要用于窄 带信道的语音通信。3、为了充分发挥声码器的性能而必 须的三个重要因素:(1)去掉语音波形中的冗余部分,提取 对于听觉所需的重要参数。(2)对参数进行有效编码。(3)根据编码的参数,尽可能忠 实地将语音还原出来。11.2 声码器的基本结构一、声码器的基本结构及实现过 程1、声码器的基本结构包括分析 和合成两部分。2、实现过程:语音信号经过分析得到 谱包络和基音以及清浊音判别,编码后送入信道 传输;在接收端, 压缩后的语音由合成器加以恢复。二