1、多媒体通信技术,主讲教师:黄玉兰 学时:16,第一章 多媒体通信技术概述 第二章 音频技术基础 第三章 图像技术基础 第四章 视频信息压缩与处理 第五章 多媒体通信系统中的关键技术 第六章 多媒体通信网络技术 第七章 多媒体数据的分布式处理 第八章 多媒体通信应用系统,本书章节,第二章 音频技术基础,音频信息涉及人耳所能听到的声音信息,包括语声和乐声。据统计,人类从外界获得的信息大约有16%是从耳朵得到的,由此可见音频信息在人类获得信息方面的重要性。本章主要介绍声学的基础知识、音频信息的数字化以及相关的音频信息编码标准。,2.1 声学基础知识 2.2 音频信息编码分类 2.3 常用压缩编码方法
2、 2.4 音频信息压缩编码标准 2.5 多媒体音频信号文件格式,本章主要内容,人类获取信息的方法主要有“听”和“看”两种。看是通过眼睛读或是观察文字、图形和图像等,听则要用耳朵来接受语音、音乐及其他声音。因而在多媒体系统中加入声音功能是必不可少的,我们希望一个计算机系统既能发音又能记录各种声音,当然还要能对声音进行编辑制作。当一种物体使空气发生振动时就产生了声音。比如讲话时声带的振动、拉琴时琴弦的振动以及扬声器纸盆的振动等都会产生声音。这样的声音可以用声波来表示。声波是一条随时间变化的连续曲线。,2.1 声学基础知识,一切能发出声音的物体称为声源。声音是由于声源的振动而产生的,由于声源的振动,
3、借助于它们周围的介质, 把这种振动以机械波的形式由近及远地传向远方, 这就是声波。声波传入人耳,致使耳膜也产生振动,这种振动被传导到听觉神经,人们就产生了“声音”的感觉。我们日常听到的声音是在时间和幅度上都连续的模拟信号。,模拟波形信号有三个要素:基线、周期和振幅。 振幅即波形的最高点(或最低点)与基线间的距离,它表示了声音音量的大小。 周期是波形中两个相邻波峰之间的距离,它表示完成一次振动过程所需的时间, 其大小体现了振动的速度。 频率是周期的倒数,周期越短,频率越高。频率的单位为赫兹(Hz)。人的耳朵只能感觉到振动频率在20Hz到20000 Hz之间的声波,超出此范围的振动波不能引起听觉器
4、官的感觉。 其中,人耳对400-4000HZ的声波最敏感。,声音按其频率的不同可分为次声、可听声和超声。 人们把频率小于20Hz的信号称为亚音信号,或称为次音信号(subsonic); 高于20kHz的信号称为超音频信号,或称超声波(ultrasonic)信号; 位于中部的即为可听声。多媒体计算机中的声音主要指20Hz20kHz的可听声音频(audio)信号。因此,我们就把多媒体计算机的声音处理技术称为音频信号处理技术。虽然人的发音器官发出的声音频率大约是803400Hz,但人说话的信号频率通常为3003400Hz,人们把在这种频率范围的信号称为话音(speech)信号。,声音的频率范围,图2
5、-1 常见音频应用带宽示意图,音频信号又可根据其覆盖的带宽分为电话、调幅广播、调频广播及激光唱盘4种质量的声音。其大致关系如图2-1所示。,音频信号是一种复合信号,由许多频率不同的信号组成。音频信号的一个重要参数就是带宽,用来描述组成复合信号的频率范围。如高保真声音的频率范围为1020000Hz,它的带宽约为20kHz,而视频信号的带宽是6MHz。,音频信号类别,几种常见的声音频宽,一般说来,覆盖频率越宽则声音质量越好。通常语音信号电话或调幅广播质量的声音已基本可以满足要求,而对于音乐则要求具有调频广播或激光唱片的声音质量。语音常用可懂度、清晰度和自然度来衡量,而音乐则要用保真度、空间感和音响
6、效果等指标来衡量。,2.1 声学基础知识,2.1.1 音频信号特性音频信号的特性可以从时域和频域两方面进行说明。声音信号的时域特性说明了人们听到的声音从产生到结束的过程。这一过程大致可以分为3个阶段:起始、稳定、结束。声音信号的频域特性是指声音信号是由很多的正弦分量组成的,我们所感兴趣的是这些个正弦分量对整个声音信号的影响是怎样的。从频谱分析来看,大多数声音都是由线状谱和连续谱组成的。单一频率信号是线状谱,包含所有频率分量的信号是连续谱。从幅度来看,连续谱相比于线状谱来说比较弱,使整个声音在人耳的听觉来看是表现出有明确音高的有调音的特性。但这些很弱的连续谱还是不能一概忽略的。正是有了这些连续频
7、谱成分,才使声音显得生动、活泼、真实。,在多媒体技术中,研究人员常用声波频率、声压、声强等参数来描述声音。声压及声压级SPL(Sound Pressure Level)是常用的声音描述参量。简单来说,声压就是声音的压力。声压级SPL是为了很好的描述人耳对声音的感觉所使用的物理量。研究人耳对声音强弱的感觉是用声压及声压级来说明的。它是用来说明当声音的强弱出现线性的变化时,人耳对这种声音强弱线性的变化感觉是否也是线性的。实际上,人耳对声音强弱的变化感觉并不是线性的。,当声压太小时,人耳是感觉不到的。我们把能引起人耳听到声音时的声压称为听阈,频率1kHz时的听阈为210-5Pa ;将引起人耳疼痛的声
8、压称为痛阈,约为20Pa 。人耳对声压强弱变化的感觉并不是呈线性的。大体上来说,人耳对声音强弱的感觉是与声压有效值的对数成比例的。为适应人耳的这一特性,就对声压有效值取对数,用此对数值来表示声音的强弱。这种表示声音强弱的对数值就叫做声压级。人耳的听阈和痛阈分别对应的声压级为0dB和120dB。,声音信号特性分析,2.1.2 人耳听觉特性 人对声音的主观感觉的描述是用响度、音调和音色 这三个参数来描述的。它们被称为人耳听觉特性的三 要素。一般来说,客观物理量的声压或声强、频率、波 形(频谱结构)和主观感觉的三要素响度、音调、音色 相对应。,声音媒体三要素音调:与声音的频率有关,频率高则音调高,频
9、率低则 音调低。音调高时声音尖锐,俗称高音;音调低时声音沉闷,俗称低音。响度:它取决于声音的振幅。振幅越大,声音就越响亮。音色:音色则由叠加在声音基波上的谐波所决定,一个声波上的谐波越丰富,音色越好。,1、人耳对声音强弱的感觉特性从前面对声压及声压级的描述我们知道,人耳对声音强弱的感觉不不是与声压成正比,而是与声压级成正比关系。 2、响度和响度级响度是听觉判断声音强弱的属性。响度主要与引起听觉的声压有关,也与声音的频率和声音的波形有关。,声压(级)是从客观的角度来描述声波的强弱的,而响 度是从主观的角度来描述人耳对声音强弱的感觉。一般来 说,声压(级)大的声音其响度也会较大,它们之间是有一 定
10、的关系,但并不完全一致。声压级每增加10dB,响度增 加1倍。也就是说声压(级)大的声音人耳的感觉不一定响。描述响度、声压以及声音频率之间关系的曲线称为等响 度曲线,也叫响度的灵敏度曲线。等响曲线与人的年龄和耳 朵的结构有关。,图2-2 等响曲线,3、人耳听觉的掩蔽效应现象:安静的环境和嘈杂的环境中人耳可以分辨的声音不同。一个频率声音的听阈由于另一个声音的存在而上升的现象称为掩蔽。前者称为被掩蔽声音(masked tone) ,后者称为掩蔽声音(masking tone) 。当我们听两个频率的声音的时候,其中一个频率的声音很响,而另一个频率的声音较弱,尽管从声强来说都超过了听阈,但此时,我们只
11、能听到很响的那个频率的声音,不很响的频率的声音是听不到的,也就是说弱声被强声掩蔽掉了。,几个概念 纯音:一般的声音由几种振动频率的波组成,若该声音只有一种振动频率就叫做纯音;复音:由许多纯音组成,复音的频率用组成这个复音的基音频率表示,一般的乐音都是复音;基音:是复音中频率最低部分的声音;泛音:在一个复音中,除去基音外,所有其余的纯音都是泛音。,我们来看看纯音之间的掩蔽效应。对于纯音来说,一般会有这样的现象出现:频率低的纯音比较容易掩蔽频率高纯音,而频率高的纯音比较来说难掩蔽低频率的纯音。例如雪橇上的铃声可以掩蔽高音碰撞的声音,但不能掩蔽低音鼓的声音。,在复合声音信号中,响度较低的声音频率分量
12、被响度较高者淹没,这种现象被称为掩蔽效应。由于掩蔽声音的存在,要听到被掩蔽声音,则被掩蔽声音的听阈必须提高一定的分贝数,这个提高的分贝数就称为一个声音对另一个声音的掩蔽值。提高后的听阈称为掩蔽阈。利用人耳对声音的掩蔽效应,可以用有用的声音信号去掩蔽那些无用的声音信号。从上面所做的描述可以知道,只需要将那些对人没有用的声音的声压级降低到掩蔽域之下就可以了,完全没有必要花力气彻底消除对人无用的声音信号。,图2-3 中心频率为1200Hz的带有噪声的掩蔽谱,4、 声音质量评价,我们经常会对某一位歌手的歌声发表意见,并与其他歌手进行比较,这其实是在对声音的质量进行评价。 声音质量的评价有两种基本方法:
13、客观评价、主观评价。,声波的测量与分析传统的方法是先用机电换能器把声波转换为相应的电信号,然后用电子仪表放大到一定的电压级进行测量与分析。由于计算技术的发展,使许多计算和测量工作都使用了计算机或程序实现。这些带计算机处理系统的高级声学测量仪器,能完成下列一些测量工作: 评价值的测量响度和响度级,噪音级,清晰度指数,噪音评价数。 声源的测量频谱的时间变化,声功率,指向性,效率,频谱特征,幅值分布等。 音质的测量混响时间,隔音量,吸音量。, 声音质量客观评价,声测量的基本仪器是声级计。声级计是一种能对声音作出类似人耳的反应的仪器,同时,它能进行客观而可重复的声压和声级测量。声压测量的好处很多:它能
14、帮助音乐厅提高音响效果;能对烦扰声音进行精密的、科学的分析。声级测量还能明确地告诉我们什么声音会引起听力损害,并提醒人们采用适当的听力保护措施。因此,声测量是不可少的。,客观评价声音质量的一个主要指标是信噪比SNR(Signal to Noise Ration)。其单位是分贝(dB)。, 声音质量的主观评价,采用客观标准方法很难真正评定某种编码器的质量,在实际评价中,主观评价比客观评价更为恰当和合理。通常是对某编码器的输出的声音质量进行评价,例如播放一段音乐,记录一段话,然后重放给实验者听,再由实验者进行综合评定。可以说,人的感觉机理最具有决定意义。当然,可靠的主观评价值是较难获得的。,采用平
15、均判分(Mean Opnion Scose-MOS)法也称等级法,过程是召集一批实验者,请每个实验者对某个编解码器的输出进行质量判分,采用类似于考试的五级分制,不同的MOS分对应的质量级别和失真级别见下表。, 声音质量的主观评价,2.2 音频信息编码分类,从20世纪40年代提出PCM(脉冲编码调制)原理以及 声码器的概念以来, 出现了很多压缩编码方法。可以将它们 分为三类:波形编码、参数编码和混和编码。1波形编码波形编码是基于对语音信号波形的数字化处理,试图使 处理后重建的语音信号波形与原语音信号波形保持一致。波形编码的优点是实现简单、语音质量较好、适应性强 等。缺点是话音信号的压缩程度不是很
16、高,实现的码速率比 较高。,常见的波形压缩编码方法有:脉冲编码调制PCM、增量调制编码DM、差值脉冲编码调制DPCM、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码(VQ)等。波形编码的比特率一般在1664kbit/s之间,它有较好的话音质量与成熟的技术实现方法。当数码率低于32kbit/s的时候音质明显降低,16 kbit/s时音质就非常差了。 采用波形编码时,编码信号的速率可以用下面的公式来计算:编码速率采样频率 编码比特数 若要计算播放某个音频信号所需要的存储容量,可以用下面的公式: 存储容量播放时间速率8(字节),2、参数编码参数编码又称声源编码,它是通过构造一
17、个人发声的模型,以发音机制的模型作为基础,用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型,在发送端从模拟语音信号中提取各个特征参量并对这些参量进行量化编码,以实现语音信息的数字化。实现这种编码的方式也称为声码器。这种编码的特点是语音编码速率较低,基本上在2kbits9.6kbits之间。它主要用于在窄带信道上提供4.8 kb/s以下的低速语音通信和一些对延时要求较宽的应用场合(如卫星通信等)。可见其压缩的比特率较低。但是也有其缺点: 首先是合成语音质量较差,往往清晰度满足要求而自然度不好,难于辨认说话人是谁;其次是电路实现的复杂度比较高。,目前,编码速率小于16kbit/s的低
18、比特话音编码大都采用参数编码,参数编码在移动通信、多媒体通信和IP网络电话应用中都起到了重要的作用。参数编码的典型代表是线性预测编码(LPC)。,话音源通过对人的话音生成机理研究,人们认为,人的话音由声道(口腔+鼻腔+咽腔)产生,由浊音和清音组成。I. 浊音浊音也叫有声音,由声带振动产生的准周期脉冲引起,这一准周期音称为基音。每次声带振动使一股空气从肺部流进声道并激励声道,各股空气之间的间隔称为基音间隙或基音周期T,T为420ms,相当于基音频率为50250Hz。男性的基音频率大约为50250Hz,女性的基音频率大约为 100500Hz。气流冲出腔体发出的不同声音强度对应为声音的音量大小。,I
19、I. 清音声带不振动的音称为清音,又称无声音,其波形与噪声类似,且没有周期特性,没有基音及谐波成分,较浊音更具有随机性。清音的能量大都集中在比浊音更高的频率范围内。,通过以上对人发声的机理和对语音的分析,可以把语声信号的发生过程抽象为下面的模型图。在模型图中,周期信号源表示浊音激励源,随机信号表示清音激励源;u(n)表示波形产生的激励参数,可以用清/浊音判决(u/v)来表示;G是增益控制,代表语声信号的强度;线性时变滤波器可以看作是声道特性;ai是线性时变滤波器的系统参数;C(n) 是合成的语声输出。,3、混和编码,波形编码:保真度好,计算量小,但编码后速率高; 参数编码:码速率较低,但保真度
20、欠佳,计算复杂。 混和编码将波形编码和参量编码结合起来,力图保持波形编码话音的高质量与参量编码的低速率。克服弱点,结合优点。,压缩比特率:416kbit/s 编码器:多脉冲激励线性预测编码器(MPE-LPC)、规则脉冲激励线性预测编码器(RPE-LPC)、码激励线性预测编码器(CELP)、矢量和激励线性预测编码器(VSELP)和多带激励线性预测编码器。,与参数编码的差别:信号激励源的选取更加精细通过调整激励信号使语音输入信号与重构的语音信号误差最小。使用了合成分析法。,图2-5 合成分析原理简化框图,三种压缩编码的性能比较可以用下图来表示:,2.3 常用压缩编码方法,在多媒体应用中,为获得高质
21、量的音频信号,常常对音频信号的取样频率和编码位数都取的较大,而且再考虑到多声道的应用,其数字化后的数据量是很大的。我们把速率低于64kb/s的语声数字化处理方法称为音频信息压缩编码。 2.3.1 差值脉冲编码调制DPCM和自适应差值脉冲编码调制ADPCM差值脉冲编码调制(DPCM)的基本出发点就是对相邻样值的差值进行量化编码。由于此差值比较小,可以为其分配较少的比特数,进而起到了压缩数码率的目的。在具体的实现过程中,是对样值与其对应的预测值的差值进行量化编码的。,对一个话音信号的样值序列,当前样值的预测值可以由其前面的若干个样值来进行预测,若样值序列表示为:( 为当前值) ,则对当前样值完整的
22、预测表达式由下式表示:,式中 为当前值 的预测值, 为当前值前面的N-1个样值。 为预测系数,若预测系数随输入信号而变化时就是自适应预测。则当前值 与预测值 的差值表示为:可以由一系列预测值得到其对应的差值。差分脉冲编码调制就是对上面的一系列差值进行量化编码,再进行存储或传输。由于话音信号相邻样值之间有很强的相关性,所以预测值与实际值是很接近的,其差值也是很小,也就可以用比较少的比特数来进行编码表示,这样就减少了编码的比特数。在接收端或在对数据进行回放时,可用类似的过程重建原始数据。,实现差分脉冲编码调制的系统方框图如图27所示:,图2-7 差分脉冲编码调制系统,预测系数的求法是预测估值的均方
23、差为最小的预测系数。为了进一步提高编码的性能,人们将自适应量化技术和自适应预测技术结合在一起用于差分脉冲编码调制DPCM中,从而实现了自适应差分脉冲编码调制ADPCM。,自适应量化的基本思路是:使量化间隔的变化与输入语声信号的方差相匹配,也就是使量化器阶距随输入信号的方差而变化,且量化阶距正比于量化器输入信号的方差。自适应量化的方式可以采用所谓的前向自适应量化,也可以采用后向自适应量化。无论使用哪种方式,都可以改善语声信号的动态范围和信噪比。 自适应量化器首先检测差分信号的变化率和差分信号的幅度大小,而后决定量化器的量化阶距。自适应预测器能够更好地跟踪语音信号的变化。因此,将两种技术组合起来使
24、用,从而可以提高系统性能。ADPCM的简化原理框图如图2-8所示。 ,图2-8 自适应差值脉冲编码调制编码原理(a) ADPCM编码器; (b) ADPCM解码器,从图2-8中可以看出, 在图2-8(a)编码器框图中,实际上 也包含着图2-8(b)的解码器框图, 两者的算法是一样的。,2.3.2 线性预测编码 LPC线性预测编码(linear predictive coding, LPC)方法为参数编码方式。参数编码的基础是人类语音的生成模型,通过这个模型,提取语音的特征参数,然后对特征参数进行编码传输。,线性预测编码LPC的原理框图如下图所示。在线性预测编码LPC中,将语声信号简单的划分为浊
25、音信号和清音信号。清音信号可以用白色随机噪声激励信号来表示,浊音信号可以用准周期脉冲序列激励信号来表示。由于语声信号是短时平稳的,根据语声信号的短时分析和基音提取方法,可以用若干的样值对应的一帧来表示短时语声信号。这样,逐帧将语声信号用基音周期Tp,清/浊音(u/v)判决,声道模型参数ai和增益G来表示。对这些参数进行量化编码,在接收端再进行语声的合成。语声激励信号:浊音信号(准周期脉冲序列)+清音信号(白色随机噪声),虽然码速率低,但在噪声环境下语音质量不好,现已被淘汰。,在LPC原理框图的发送端,原始话音信号送入A/D变换 器,以8kHz速率抽样变成数字化语声信号。以180个抽样样 值为一
26、帧,对应帧周期为22.5ms,以一帧为处理单元进行 逐帧处理。完成每一帧的线性预测系数分析,并作相应的清 /浊音(u/v)处理、基音(Tp)提取,再对这些参量进行量 化、编码并送入信道传送。在接收端,经参量译码分出参量 ai、G、Tp、u/v,以这些参数作为合成语声信号的参量, 最后将合成产生的数字化语声信号经D/A变换还原为语声信 号。,2.3.3 矢量量化VQ(Vector Quantization)编码在我们前面对量化的描述中,都是对单个采样的样值进行量化的,这种量化被称为标量量化。所谓矢量量化VQ,是将输入的信号样值按照某种方式进行分组,把每个分组看作是一个矢量,并对该矢量进行量化。矢
27、量量化编码的原理框图如图2-10所示。在发送端,先将语音信号的样值数据序列按某种方式进行分组,每个组假定有k个数据。这样的一组数据就构成了一个k维矢量。每个矢量有对应的下标,下标是用二进制数来表示的。把每个数据组所形成的矢量看作是一个码字;这样,语音数据所分成的组就形成了各自对应的码字。把所有这些码字进行排列,可以形成一个表,这样的表就叫作码本或码书。在矢量量化编码方法中,所传输的不是对应的矢量,而是对应每个矢量的下标。由于下标的数据相比于矢量本身来说,要小的多,所以这种方式就实现了数据的压缩。,图2-10 矢量量化编码及解码原理,矢量量化的理论基础是香农的速率失真理论,其基本原理是用码书中与
28、输入矢量最匹配的码字的索引(下标)代替输入矢量进行传输和存储,解码时只需简单的查表操作。,实现矢量量化的关键技术有两个:一个是如何设计一个优良的码本,另一个是量化编码准则。采用矢量量化技术可以对待编码的信号码速率进行大大的压缩,它在中速率和低速率语音编码中得到了广泛应用。例如在语音编码标准G.723.1、G.728和G.729中都采用了矢量量化编码技术。矢量量化编码除了对语音信号的样值进行处理外,也可以对语音信号的其他特征进行编码。如在语音标准G.723.1中,在合成滤波器的系数被转化为线性谱对(LSP:Linear Spectrum Pair)系数后就是采用矢量量化编码方法。,2.3.4 子
29、带编码 基本思想:将输入信号分解为若干子频带,然后对各子带分量根据其不同的统计特性采取不同的压缩策略,以降低码率。 子带划分依据:话音信号自身特性 优点不仅可以很好地控制各个子带的量化电平数,还可以很好地控制在重建信号时的量化误差方差值,进而获得更好的主观听音质量。相对独立的量化噪声被束缚在各自子带内,互不影响。各个子带的采样频率大大降低。,图2-11 子带编码原理,图中发送端的n个带通滤波器将输入信号分为n个子频带,对各个对应的子带带通信号进行调制,将n个带通信号经过频谱搬移变为低通信号;对低通信号进行采样、量化和编码,得到对应各个子带的数字流;再经复接器合成为完整的数字流。经过信道传输到达
30、接收端。在接收端,由分配器将各个子带的数字流分开,由译码器完成各个子带数字流的译码;由解调器完成信号的频移,将各子带搬移到原始频率的位置上。各子带相加就可以恢复出原来的语声信号。,在音频子带编码中,子带划分的依据是与话音信号自身的特性分不开的。人所发出的语声信号的频谱不是平坦的,人的耳朵从听觉特性上来说,其频率分布也是不均匀的。语声信号的能量主要是集中在5003000 Hz的范围内,并且随频率的升高衰减很迅速。从人耳能够听懂说话人的话音内容来讲,只保留频率范围是400Hz3kHz的语音成分就可以了。根据语音的这些特点,可以对语音信号的频带采用某种方法进行划分,将其语音信号频带分成一些子频带;对
31、各个频带根据其重要程度区别对待。比如,对语音信号中能量较大, 对听觉有重要影响的部分(如500800 Hz频段内的信号)分配较多的码字, 对次要信号(如话带中大于3 kHz的信号)则分配较少的码字。,对不同的子带分配不同的比特数,不仅可以很好地控制各个子带的量化电平数,还可很好地控制在重建信号时的量化误差方差值,进而获得更好的主观听音质量; 由于各个子带相互隔开,这就使各个子带的量化噪声也相互独立,互不影响,量化噪声被束缚在各自的子带内。这样,某些输入电平比较低的子带信号不会被其他子带的量化噪声所淹没; 子带划分的结果使各个子带的采样频率大大降低。使用子带编码技术的编译码器已开始用于话音存储转
32、发和语音邮件,采用两个子带和ADPCM的编码系统也已由ITU-T作为G.722标准向全世界推荐使用。子带编码方法常与其他一些编码方法混合使用,以实现混合编码。,将语音信号分为若干个子带后再进行编码有几个突出的优点:,2.3.5 感知编码感知编码基于人耳的听觉特性,通过消除不被感知的冗 余信息来实现对音频数据压缩的编码方法。它基于心理声学 模型,利用人的听觉阈值特性和掩蔽效应,通过给不同频率 处的信号分量分配以不同量化比特的方法来控制量化噪声, 使得噪声能量低于掩蔽阈值,即把压缩带来的失真控制在听 阈以下,使人耳觉察不到失真的存在,从而实现更高效率的 音频压缩。目前,在高质量音频编码标准中,心理
33、声学模型是一个 最为有效的算法模型。在此类编码中,以MPEG音频编码 (MPEG layerl, 2, 3和AAC标准)和Dolby Digital的应用最 为广泛。,人耳对音频信号的幅度、频率和时间的分辨能力是有限 的,凡是人耳感觉不到的成分都不进行编码和传送;对感觉 到的部分进行编码时,也允许有较大的量化失真,只要这个 失真是在人耳感觉不到的听域以下即可。感知编码是建立在人类听觉系统的心理声学基础上的, 只记录那些能够被人耳感觉到的声音,从而达到压缩数据量 的目的。感知编码的理论基础是基于人耳的闻域、临界频段和掩 蔽效应。,临界频段反应了人耳对不同频段声音的反应灵敏度是有差异的:在低频段对
34、几赫兹的声音差异都能分辨,而在高频段的差异要达到几百赫兹才能分辨。试验表明,低频段的临界频段宽度有100Hz到200Hz,在大于5kHz后的高频段的临界频段宽度有1000Hz到几万Hz。近3/4的临界频段低于5kHz。因此在编码时要对低频段进行精细的划分,而对高频段的划分不必精细。掩蔽包括频域掩蔽和时域掩蔽。在频域,一个强音会掩蔽掉与之接近的弱音,掩蔽特性与掩蔽音的强弱、掩蔽音的中心频率以及掩蔽音与被掩蔽音的频率相对位置有关。时域掩蔽是指掩蔽效应发生在掩蔽音与被掩蔽音不同时出现时,也称为异时掩蔽。在编码时,对被掩蔽的弱音不必进行编码,从而达到数据压缩的目的。在感知编码中使用了心理模型。,图2-
35、12 MPEG通用音频编解码系统结构,下图是感知编码的MPEG通用音频编码系统的结构框架:,图中的时间/频率映射完成将输入的时间域音频信号转 变为亚取样的频率分量,这可以使用不同的滤波器组来, 其输出的频率分量也叫做子带值或者频率线。心理声学模 型利用利用滤波器组的输出和输入的数字声音信号计算出 随输入信号而变化的掩蔽门限估值。量化和编码按照量化 噪声不超过掩蔽门限的原则对滤波器组输出的子带值(或 频率线)进行量化、编码,目的是使量化的噪声不会被人 耳感觉到。可以采用不同算法来实现量化和编码,编码的 复杂程度也会随分析/综合系统的变化有所不同。按帧打包 来完成最后的编码码流。编码码流中除了要包
36、括量化和编 码映射后的样值外,还包括如比特分配等的信息。 在音频压缩编码中,感知编码是比较成功的。像 MPEG-1、MPEG-2和AC-3都采用感知编码。,2.4 音频信息压缩编码标准,经过近二三十年的努力, 人们已在语音信号压缩编码方面取得了很大进展, 开发出了许多压缩方法, 其中的一些已成为了国际或地区的编码标准, 表2-1所示是按波形编码、 参数编码和混合编码三类编码方法分类的具有代表性的标准。,表2-1 数字音频编码算法、 标准简表,2.4.1 波形编码标准采用波形编码的编码标准有G.711、G.721和G.722标准。,G.711标准是在1972年提出的,它是为脉冲编码调制(PCM)
37、制定的标准。从压缩编码的评价来看,这种编码方法的语音质量最好,算法延迟几乎可以忽略不计,但缺点是压缩率很有限。G.711是针对电话质量的窄带话音信号,频率范围是0.33.4kHz,采样频率采用8kHz,每个采样样值用8位二进码编码,其速率为64kbit/s。标准推荐采用非线性压缩扩张技术,压缩方式有A律和律两种。由于使用了压缩扩张技术,其编码方式为非线性编码,而其编码质量却与11比特线性量化编码质量相当。在5级的MOS评价等级中,其评分等级达到4.3,话音质量很好。编解码延时只有0.125ms,可以忽略不计。算法的复杂度是最低的,定为1,其他编码方法的复杂度都与此做对比。,1G.711标准,2
38、 G.721标准G.721标准是ITU-T于1984年制定的, 主要目的是用于64 kb/s的A律和律PCM与32 kb/s的ADPCM之间的转换。它基于ADPCM技术,采样频率为8 kHz, 每个样值与预测值的差值用4位编码, 其编码速率为32 kb/s, ADPCM是一种对中等质量音频信号进行高效编码的有效算法之一,它不仅适用于语音压缩, 而且也适用于调幅广播质量的音频压缩和CD-I音频压缩等应用。语音评价等级达到4.0(MOS),质量也很好。系统延时0.125ms,可忽略不计,复杂度达到10。 ,图2-13 G.721 32kbit/s ADPCM原理, G.722标准是针对调幅广播质量
39、的音频信号制定的压缩标准,音频信号质量高于G.711和G.721标准。调幅广播质量的音频信号其频率范围是50Hz7kHz。此标准是在1988年由CCITT制定的,此标准采用的编码方法是子带自适应差分脉冲编码调制(SB-ADPCM)编码方法,将话音频带划分为高和低两个子带,高、低子带间以4kHz频率为界限。在每个子带内采用自适应差值脉冲编码调制方式。其采样频率为16kHz,编码比特数为14bit,编码后的信号速率为224 kbit/s。G.722标准能将224kbit/s的调幅广播质量信号速率压缩为64kbit/s,而质量又保持一致,可以在多媒体和会议电视方面得到应用。G.722编码器所引入的延
40、迟时间限制在4ms之内。,3 G.722标准,2.4.2 混合编码标准采用混合编码方法的编码标准有G.728、G.729和G.723.1标准.,1 G.728标准CCITT于1992年制定了G.728标准,该标准所涉及的音频信息主要是应用于公共电话网中的。G.728是LPAS声码器,编码速率为16kbit/s,质量与速率是32kbit/s的G.721标准相当。该标准采用的压缩算法是低延时码激励线性预测(LD-CELP)方式。线性预测器使用的是反馈型后向自适应技术,预测器系数是根据上帧的语声量化数据进行更新的,因此算法延时较短,只有625m,即5个抽样点的时间,此即为G.728声码器码流的帧长。
41、,由于使用反馈型自适应方法,不需要传送预测系数,唯一需要传送的就是激励信号的量化值。此编码方案是对所有取样值以矢量为单位进行处理的,并且采用了线性预测和增益自适应方法。G.728的码本总共有1024个矢量,即量化值需要10个比特,因此其比特率为10/0.625=16 kbit/s。G.728也是低速率的1SDN可视电话的推荐语音编码器标准,速率是从56128kbit/s。由于这一标准具有反向自适应的特性,可以实现低的时延,但其复杂度较高。,图2-14 G.728编码器结构,2 G.729标准G.729是ITU-T为低码率应用而制定的语音压缩标准。G.729标准的码率只有8kbit/s,其压缩算
42、法相比其它算法来说比较复杂,采用的基本算法仍然是码激励线性预测(CELP:Code Excitation Linear Prediction)技术。为了使合成语音的质量有所提高,在此算法中也采取了一些新措施,所以其具体算法也比CELP方法复杂。G.729标准采用的算法称作共轭结构代数码激励线性预测(CS-ACELP:Conjugate Structure A1gebraic Code Excited Linear Prediction)。,ITU-T制定的G.729标准,其主要应用目标是第一代数字移动蜂窝移动电话,对不同的应用系统,其速率也有所不同,日本和美国的系统速率为8kbit/s左右,G
43、SM系统的速率为13kbit/s。由于应用在移动系统,因此复杂程度要比G.728低,为中等复杂程度的算法。由于其帧长时间加大了,所需的RAM容量比G.728多一半。,3 G.723.1标准G.723.1标准是国际电信联盟(ITU-T)于1996年制定的多媒体通信标准中的一个组成部分,可以应用于IP电话、H.263会议电视系统等通信系统中。 G.723.1音频压缩标准是已颁布的音频编码标准中码率较低的,G.723.1语音压缩编码是一种用于各种网络环境下的多媒体通信标准,编码速率根据实际的需要有两种,分别为5.3 kbit/s和6.3kbit/s。,其中,5.3kbit/s码率编码器采用多脉冲最大
44、似然量化技术(MP-MLQ),6.3kbit/s码率编码器采用代数码激励线性预测技术(ACELP)。G.723.1标准的编码流程比较复杂,但基本概念仍基于CELP编码器,并结合了分析合成的编码原理,使其在高压缩率情况下仍保持良好的音质。,图2-14 G.723.1 标准语言编码器原理,图2-15 G.723.1 解码器原理,G.723.1与G.729标准的主要不同在于: (1) 分析帧长是30 ms, 且分成4个子帧。 每个子帧分别进行LPC分析, 但仅仅最后一个子帧的LPC系数量化编码; 基音估计每两个子帧进行一次。 G.729中分析帧长为10 ms, 分成两个子帧。 所以, G.723.1
45、编解码时延更大。 (2) 自适应码书和固定码书增益量化是分别进行的, 前者采用矢量量化, 后者用标量量化, 没有像G.729那样, 两个增益都采用共轭结构码书。 (3) 激励有两种, 分别为多脉冲激励(高速率时)和代数码激励(低速率时), 而G.729只有代数码激励。 所以G.723.1可以有多速率选择, 能适应网络资源情况变化。,2.4.3 MPEG音频编码标准,本章所描述的MPEG音频是MPEG-1音频、MPEG-2音频和MPEG-2 AAC音频。MPEG音频编码是国际上公认的高保真立体声音频压缩标准。MPEG-1声音标准规定其音频信号采样频率可以有32kHz、44.1kHz或48kHz三
46、种,音频信号的带宽可以选择15kHz和20kHz。其音频编码分为3层:Layer-1、Layer-2和Layer-3。 Layer-1的压缩比为1:4,编码速率为384kb/s; Layer 2的压缩比为1:61:8之间,编码速率为192 256kb/s; Layer 3的压缩比为1:101:12,压缩码率可以达到64kb/s。,1MPEG-1声音标准MPEG-1音频编码的信号频带是2020kHz,取样频率使用的是32kHz、44.1kHz和48kHz,采用的编码算法是感知子带编码。它支持单声道、 双声道、 立体声和联合立体声四种声音模式。 Layer-1的编码器最为简单,主要用于小型数字盒式
47、磁带; Layer-2编码器的复杂程度是中等,主要用于数字广播音频、数字音乐、只读光盘交互系统和视盘; Layer-3的编码器最为复杂,主要用于ISDN上的声音传输。,MPEG音频编码采用了子带编码,共分为32个子带,MPEG编码的音频数据是按帧安排的。Layer-1的每帧包含3212384个样本数据,Layer-2和Layer-3每帧包含有323121152个样本数据,是Layer-1的3倍。 (1)Layer-1的编码Layer-1的子带划分采用等带宽划分,分为32个子带,每个子带有12个样本,心理声学模型只使用频域掩蔽特性。Layer 1和Layer 2编码器的结构基本类似,其差别在于滤
48、波器子带的划分不同和FFT的运算点数不同。,图2-17 Layer-1和layer-2的编解码器方框图,图2-18给出了Layer1音频编码的数据帧结构。其中 帧头占用32 bit, 由同步和状态信息组成; 同步码字12 bit全为1; 帧校验占用16 bit, 用于检测比特流中的差错; 音频数据由比特分配信息、 比例因子信息和子带样值组成,不同的层其音频数据不同; 附加数据用于传输辅助信息。 ,在图2-18的帧结构中,各个部分的内容如下: 同步头 由每帧开始的前32个比特组成,这32个比特包含同步信息和状态信息,同步码由12个全1码组成、所有的三层音频信息编码在这部分都是一样的。 帧校验码(
49、CRC) 帧校验码占16bit,用来检测传输后比特流的差错,所有三层的这一部分也都是相同的。 音频数据 由位分配、比例因子和子带样值组成。其中子带样值是音频数据的最大部分,不同层的音频数据是不同的。 附加数据 用来传输相关的辅助信息。,帧是音频数据的组织单位,用于同步、纠错,而且也有利于对音频信息的存取、编辑。在每一帧的开始都安排一个完成帧同步的同步码,为了保证传输的可靠性,还有CRC的循环冗余纠错码。帧是MPEG-1处理的最小信息单元,一帧信号处理384个PCM的样值,因为要检测每个样值的大小后才能开始处理,所以延时时间38448K=8ms。一帧相当于8ms的声音样本。MPEG音频Layer-1的设计是为了在数字录音带DCC方面的应用,使用的编码速率是384kbit/s。MPEG音频Layer-l可以实现的压缩比是1 : 4,立体声是通过分成左(L)、右(R)两个声道实现的。,