收藏 分享(赏)

第二章 多媒体数据压缩编码技术.ppt

上传人:Facebook 文档编号:9648076 上传时间:2019-08-20 格式:PPT 页数:139 大小:1.65MB
下载 相关 举报
第二章 多媒体数据压缩编码技术.ppt_第1页
第1页 / 共139页
第二章 多媒体数据压缩编码技术.ppt_第2页
第2页 / 共139页
第二章 多媒体数据压缩编码技术.ppt_第3页
第3页 / 共139页
第二章 多媒体数据压缩编码技术.ppt_第4页
第4页 / 共139页
第二章 多媒体数据压缩编码技术.ppt_第5页
第5页 / 共139页
点击查看更多>>
资源描述

1、第二章 多媒体数据压缩编码技术,邮箱:,主讲:,电话:,掌握数据压缩的重要意义掌握数据冗余的概念、分类及信息熵的计算公式了解数据压缩的三个关键指标,即压缩比、图像质量、压缩和解压缩的速度掌握Huffman编码原理、方法及特点了解预测编码和变换编码原理熟知音频压缩标准掌握图像压缩标准JPEG和MPEG,教学目标,2.1 多媒体数据压缩基本原理,2.2 数据压缩与解压缩常用算法,2.3 多媒体数据常用压缩标准,内容导航,2.1 多媒体数据压缩基本原理,2.1.1 多媒体数据压缩的必要性和可能性,2.1.2 数据冗余的基本概念与种类,2.1.3 图像压缩预处理技术,2.1.4 量化及其质量,2.1.

2、5 数据压缩算法综合评价指标,多媒体信息数据巨大是多媒体计算机系统所面临的最大难题之一。在各种媒体信息中,视频信息数据量最大,其次是音频信号,因此,为了处理和传输多媒体信息不仅需要很大的存储容量,而且要有很高的传输速度.,2.1.1 多媒体数据压缩的必要性和可能性,音频信号和视频图像的数字化数据可以进行数据压缩是基于以下两种事实:,因此,完全可以利用这些特性去除一些多余及不敏感的信息,从而实现对数据的压缩。,人的听觉特征表现出对部分音频信号不敏感,如人的听觉具有一个强音能抑制一个同时存在的弱音现象,而且,人耳对低频端比较敏感,而对高频端不太敏感。,人的视觉特征表现为对亮度信息很敏感而对边缘的急

3、剧变化不敏感;,2.1.2 数据冗余的基本概念与种类,数据冗余 信息存在的各种多余度,如果用I、D、du分别表示信息量、数据量和冗余量,则它们之间的关系可由下式给出I=D - du,信息量 指从N个相等的可能事件中选出一个事件所需要的信息度量和含量。,信息熵 信源所有可能事件的信息量的平均值,式中,n为数据或码元的个数,p(x i )为码元x i 发生的概率。,为使单位数据量D接近或等于H,应设,其中b(x i)为分配给码元x i 的比特数。 理论情况下,应取,但实际上很难确定各码元的概率,因此, 一般总取 b(x1)= b(x2)= .= b(x n),即 分配给每个码元的比特数相等(等长码

4、),这样 所得的D必然大于H,从而形成了信息冗余。,这是图像数据中经常存在的 一种冗余。在同一幅图像中, 规则物体和规则背景的表面 物理特性具有相关性,这些 相关的光成像结构在数字化 图像中就表现为数据冗余。,这是序列图像和语音数据中所经常包含的冗余。序列图像一般是位于一时间轴区间的一组连续画面,前后帧之间具有很强的相关性。当播放该图象序列时,随着时间的推移,若干帧画面的某些地方发生了变化,但有的部位却没有变化,这就形成了时间冗余。,有些图像的纹理区,图像的像素值存在着明显的分布模式,如方格状的地板图案等,我们称之为结构冗余 。,信息熵冗余是指数据所携带的信息量少于数据本身所反映出来的数据冗余

5、。,例如 若信号a1,a2的概率分别为 P(a1)=0.9, P(a2)=0.1,则信号的平均信息量为 H(x)=(0.9log20.9+0.1log20.1)=0.467(bit) 用二进制数据表示这两个信号时需用1bit显然出现了数据冗余。,人类的视觉系统由于受生理特性的限制,对于图像场的任何变化并不是都能感知。例如,对图像的压缩或量化而引入的噪声能使图像发生一些变化,如果这些变化并不能被视觉所感知,则忽略这些变化后,仍认为图像是完好的。事实上,人的视觉系统一般的分辨能力约为26灰度等级,而图像量化一般采用28灰度等级,这样的冗余就称为视觉冗余。,又如 建筑物的门和窗的形状、位置、大小比例

6、等,这些规律的结构可由先验知识和背景知识得到。,由图像记录方式与人对图像的知识之间的差异所产生的冗余称为知识冗余。,我们可以构造其基本模型,并创建对应各种特征的图像库,进而图像的存储只需要保存一些特征参数,就可以大大减少数据量。,例如 人脸的图像就有固定的结构,鼻子位于脸的中线上,上方是眼睛,下方是嘴等,如图像的空间非定常特性所带来的冗余。,另外,空间冗余和时间冗余是将信号看作概率信号时所反应出的统计特性,因此有时也称这两种冗余为统计冗余。,2.1.3 图像压缩预处理技术,图像数据压缩的任务是在不影响或少影响图像质量的前提下,尽量设法减少图像数据中的数据量。,图像数据中存在各种冗余,数据压缩的

7、首要任务就是去除各种冗余数据。当然删除冗余数据必然会给图像质量带来一定的损失,这就需要进行相应的预处理,来保证将这种损失降至最低限度。,图像预处理的技术主要有以下几种:,二次抽样滤波器 量化 预测编码 运动补偿 变长码 图像内插法,2.1.4 量化及其质量,量化是将具有连续幅度值的输入信号转换为只具有有限个幅度值的输出信号的过程。,就一般而言,量化是模拟信号到数字信号的映射。模拟信号是连续量,而数字信号是离散量,因此量化过程实际上就是用有限的离散量代替无限的连续量的多对一的映射过程。,一般的量化过程是预先设置一组判决电平和与其对应的一组码字,再将整个有效值区间划分成若干个子区间(也即量化级),

8、每个子区间对应一个判决电平。量化时将模拟量的采样值与这些判决电平比较,若采样值幅度落在某一子区间上,则将它量化为该量化级对应的码字。,在量化器中从输入信号x到输出信号y的过程可以表示为,Ai: xix xi+1 (i=1,2,N),式中,xi为判决电平,yi为输出电平,N为量化器的量化级数。,量化器输出幅度与输入幅度之差,称为量化误差,其均方误差值为,式中,p(x) 为量化器输入信号x的概率分布密度。,量化的方法通常有标量量化和矢量量化,标量量化是对经过映射变换后的数据或PCM数据逐个进行量化,在这种量化中,所有采样使用同一个量化器进行量化,每个采样的量化都与其他采样无关,故也称为零记忆量化。

9、,标量量化又有均匀量化、非均匀量化和自适应量化之分.,其中,(a)图是待量化的函数,是一幅图像的灰度差值直方图。其灰度范围为0255,灰度差的范围为255255,需要log2512=9位表示一个输入。当限定输出量化级为8时,量化输出用log28=3位即可,(b)图给出了均匀量化处理的示意,W1 W8为8个等宽的量化箱,其宽度总和等于输入的动态范围255255也相应地划分成8个相同的区间,每个区间对应一个量化箱。第k个区间内的中心函数值对应第k个量化箱的量化值,其量化级定义为“k”级,该区间内的所有输入均被定义为“k”级。,(c) 图给出了非均匀量化处理的示意,这时的量化箱不等宽,中间大概率处箱

10、窄,两边小概率处箱宽。同样量化为8级,但非均匀量化的误差小于均匀量化误差。,标量量化的量化特性采用阶梯形函数的形式。图2.2给出了几种均匀量化器的量化特性,图中量化器的特性都是对称的,且,式中称为量化台阶。,不难看出,均匀量化器适合于输入信号的统计特性(概率分布密度函数P(x)均匀分布的情况。,当输入信号的概率分布密度函数分布不均匀时,最佳的量化器应是一个非均匀量化器。图2.3给出了一个非均匀量化特性的例子。,这是近年来发展起来的一种新的编码方法,是一种有损的编码方案,其主要思想是先将输入的语音信号按一定方式分组,再把这些分组数据看成一个矢量,对它进行量化。每组形成的矢量看成一个元素,又叫码字

11、,这些码字排列起来,就构成了一个表(码表),这样在接收端放置同样的码表,当接收到码字的下标信息后,就可以通过查表的到码字信息。,输入量是一个待编码的矢量xi(i=1, 2, , m),即先将图像分割成m个方块,其中任一方块i的大小为k(k=n2),以行(或列)便可堆叠成k维矢量xi:(xi1, xi2, , xik)。码本Y:(y1, y2, , yN)是一个码字集合,它实际上是一个长度为N的表,表中任一分量yi是一个k维矢量,称为码字。,矢量量化编码过程就是从码字集合中选出最紧密适配于输入矢量xi的一个码字yi的过程。在码本中找到与输入矢量xi完全一致的码字yi的概率很小,但只要两者之间的误

12、差最小时,便可用该码字yi来代表输入矢量xi。传输时并不传送码字yi本身,而只传送其下标号“i”。当码本长度为N时,传送下标所需的比特数为log2N。于是传送一个像素所需的平均比特数为 (1/k)log2N。,此方法以输入矢量与选出的码字之间失真最小为依据,与标量量化相比,它有更大的数据压缩比。但其关键问题是设计一个良好的码本。,2.1.5 数据压缩算法的综合评价指标,数据压缩方法的优劣主要由所能达到的压缩倍数、从压缩后的数据所能恢复(或称重建)的图像(或声音)质量、以及压缩和解压缩的速度等几方面来评价。此外,算法的复杂性和延时等也是应当考虑的因素。,压缩的倍数也称压缩率,通常有两种衡量的方法

13、:,由压缩前与压缩后的总的数据量之比来表示,例如,一幅1024768像素点组成的黑白图像,每像素具有8bit,通过使其分辨率降低为512384,又经数据压缩使每个像素平均仅用0.5bit,则压缩倍数为64倍,或称其压缩率为1:64。,将任何非压缩算法产生的效果(如降低分辨率、帧率等)排除在外,用压缩后的比特流中每个显示像素的平均比特数bpdp(bit per displayed pixel)来表示,例如,以15000字节存储一幅256240的图像,则压缩率为,(150008)/(256240)=2比特/像素,图像质量评估法常采用主观评估和客观 评估两种方法。,具体做法是:由若干人对所观测的重建

14、图像的质量按很好、好、尚可、不好、坏五个等级评分,然后计算出平均分数MOS,通常使用信噪比SNR来评价,其计算方法是,和 分别是输入图像的均方差与输出 图像的均方差。,压缩和解压缩的速度是压缩系统的两项重要的性能指标。,2.2 数据压缩与解压缩常用算法,2.2.1 数据压缩方法的分类,2.2.2 哈夫曼编码,2.2.3 预测编码,2.2.4 变换编码,2.2.1 数据压缩方法的分类,数据压缩实际上是一个编码过程,即将原始数据进行编码压缩。数据解压缩是数据压缩的逆过程,即将压缩的编码还原为原始数据。因此,数据压缩方法也称编码方法。自从1948年Oliver提出脉冲编码调制(PCM)编码理论以来,

15、编码方法的研究取得了极大的发展,数据压缩技术已日臻成熟,适合各种应用场合的编码方法不断产生。目前采用的数据压缩方法按出发点不同会有几种不同的分类结果。,无损压缩 是指压缩后的数据经解压缩 还原后,得到的数据与原始数据完全相同。,有损压缩 是指压缩后的数据经解压缩还 原后,得到的数据与原数据不完全相同。,它是针对空间冗余和时间冗余的压缩方法。其基本思想是利用已被编码的点的数据值来预测邻近的一像素点的数据值。预测是根据某一模型进行的,如果模型选取得足够好的话,则只需存储和传输起始像素和模型参数就可以代替整幅图像了。按照模型的不同,预测编码又分为线性预测、帧内预测和帧间预测。,它也是针对空间冗余和时

16、间冗余的压缩方法。其基本思想是将图像的光强矩阵(时域信号)变换到系数空间(频域信号)上,然后对系数进行编码压缩。在空间上具有强相关的信号,反映在频域上是某些特定区域内的能量常常被集中在一起,或者是系数矩阵的分布具有某些规律。可以利用这些规律来分配频域上的量化比特数,从而达到压缩的目的。,又称分频带编码。其基本思想是将图像数据变换到频域后,按频率分带,然后用不同的量化器进行量化,达到最优的组合。语言和图像信息都有较宽的频带,信息的能量集中在低频区域,细节和边缘则集中在高频区域。子带编码采取保留低频系数舍去高频系数的方法进行编码,操作时对低频区域取较多的比特数来编码,以牺牲边缘细节来换取比特数的下

17、降,恢复后的图像比原图模糊。其特点是有较高的压缩比和信噪比。,根据信息熵原理,对出现概率大的符号用短码字表示,反之用长码字表示。其目的是减少符号序列中的冗余度,提高符号的平均信息量。它根据符号序列的统计特性,寻找某种方法把符号序列变换为最短的码字序列,使各码元承担的信息量达到最大,同时保证无失真地恢复原来的符号序列。实现这种编码的方法有行程编码方法、哈夫曼编码方法和自适应二进制算术编码方法。,根据一幅图像像素值的统计情况进行编码压缩,也可先将图像按前述方法压缩,对所得的值加以统计,再做压缩。由此可知,统计编码既可单独使用,又可用在某个算法之后做进一步的压缩。最常用的统计编码方法是哈夫曼编码方法

18、。,除了上述编码方法外,还有结构编码方法、统计编码方法、基于知识的编码方法等。,2.2.2 哈夫曼编码,定理:在变字长编码中,对于出现概率大的信息符号编以短字长的码,对于概率小的符号编以长字长的码。如果码字长度严格按所对应符号出现概率大小逆顺序排列,则平均码字长度一定小于其他任何符号顺序排列方式得到的码字长度。,结合一个具体例子说明哈夫曼编码的方法步骤设有信源符号集a1,a2,a3,a4,a5,a6,a7,各符号对应的出现频率分别为0.23,0.21,0.18,0.15,0.13,0.07,0.03其哈夫曼编码过程如下:,a1 a2 a3 a4 a5 a6 a7,0.23 0.21 0.18

19、0.15 0.13 0.07 0.03,11 10 011 010 001 0001 0000,信源符号,概率,Huffman码,编码过程,按照上面的编“1”,下面的编“0”,2.2.3 预测编码,预测编码方法是一种专门用于压缩统计冗余数据的技术,主要是减少数据在空间和时间上的相关性。它根据某一模型利用以往的样本值对新样本值进行预测,然后将样本的实际值与其预测值相减得到一个误差值,进而对这一误差值进行编码。如果模型足够好,且样本序列在时间上相关性较强,则误差值远远小于实际值,从而达到了压缩的目的。,预测编码方法中典型的有DPCM和ADPCM方法。,差分脉冲调制(Differential Pul

20、se Code Modulation,简称DPCM)是降低每个像素所需平均比特数最实用的方法。对于绝大多数图像来说,在局部空间和时间上是高度相关的,因而可以在已得到像素的基础上通过对当前像素的预测来减少图像的数据量。,当输入信号 进入时, 先与 相减得到 预测误差值 ,量化器对差值 进行量化得到,由编码器编成二进制码通过信道发送。接 收端解码得到 ,与接收端自身形成的预测值相加,得到恢复后的 。,假设用给出的样本值序列x1,x2,x3, ,x n-1来预测x n,令预测值 为:,预测器设计是预测编码系统的核心,预 测器的复杂程度与线性预测中使用以前的样 本数有关,样本数越多,预测器越复杂。,D

21、PCM编码预测器设计,xn的最优估计值是使误差dn的期望值最 小的 之值,由均方差定义:,要使 最小,应对 a i求偏导数,并令其 为零,就可建立关于a1,a2,an-1的线性方程组 即:,上式中,可见, 所有的n-1个a i都可由上述方程组解出,整理可得,式中Ex i x j为x i和x j的协方差,可由 统计学方法确定,在预测编码系统中,预测误差的量化是造成图像质量下降的主要原因,其表现形式有:,斜率过载颗粒噪声 边缘忙乱 伪轮廓,在预测编码系统中,造成图像质量下降的另一个主要原因是由图像传输过程中的误码在接收端预测器中引起的误码传播。由于接收端当前像素是由前面已经收到的像素预测而来,因而

22、一旦某个像素编码产生误码,必然引起误码向后面的像素传播,造成局部图像的损伤。幸而这种图像损伤将随着与误码像素距离的加大而逐渐减弱。,DPCM系统的基础是输入数据为平稳的随机过程,这样就可以用固定的参数来设计预测器。然而,当输入数据并非是所要求的平稳的随机过程时,或总体上平稳,但局部不平稳时,使用固定的参数来设计预测器将是不合理的。这时可采用自适应预测编码的方法,即定期地重新计算协方差矩阵和相应的加权因子,充分利用其统计特性重新调整预测参数,使预测器随着输入数据的变化而变化,从而得到较为理想的输出。,自适应预测又可分为线性自适应预测和非线性自适应预测两种。,2.2.4 变换编码,变换编码不是直接

23、对时域图像信号编码,而是首先在数据压缩前对原始输入数据作某种正交变换,把图像信号映射变换到另外一个正交相量空间,产生一批变换系数,然后再对这些变换系数进行编码处理。,采用变换编码,可以大大减少数据冗余。例如,如果有一个正弦波,我们用采样、量化的方法把它变换的时域上,则随时间的增长数据量会海量增长。但换个思路一个正弦波只要记录频域上的幅度值以及它的频率,就完全可以表示正弦波了。,又如,设有两个相邻的数据样本x1和x2,每个样本 采用3比特编码,则各有8个幅度等级,两个样本的联合事件共有64种可能用下图二维平面坐标表示。,考虑到相邻样值的相关性,x1和x2同时出现相近幅度的可能性最大。因此,合成可

24、能性往往落在阴影区内。,如果对数据进行正交变换,从几何上 相当于坐标系旋转 450,变成y1、y2坐标系, 则在新坐标系下,任凭y1在较大的范围变 化,而y2始终只在相当小的范围内变化, 因此通过这样的变化就能得到一组去除大 部分,甚至是全部统计相关性的另一种输 出样本。,常用的变换编码有离散傅立叶变换 (DFT)、卡亨南-洛甫变换(KL) 、离散余 弦变换(DCT)等。,2.3 多媒体数据常用压缩标准,2.3.1 音频压缩标准,2.3.2 静态图像压缩编码标准JPEG,2.3.3 数字图像压缩编码标准MPEG-1,2.3.4 通用视频图像压缩编码标准MPEG-2,2.3.5 低比特率音/视频

25、压缩编码标准MPEG-4,2.3.1 音频压缩标准,音频压缩方法概述,无损压缩,有损压缩,哈夫曼编码,算术编码,游程编码,波形编码,参数编码,混合编码,(熵编码),(熵压缩),PCM,(A),DPCM,ADPCM,SB-ADPCM,CELPC,VSELP,PRE-LTP,MPEG,AC-3,用于公共网 ISDN配音,用于保密电话,用于移动通信,用于语音邮件,用于CD,用于音响,用于ISDN,LPC,电话质量的音频压缩编码技术标准,G.711 :采用非线性量化PCM 编码,数据速率为64kbit/s G.721 :采用ADPCM编码,速率为32 kbit/s ,G.728 :采用基于短时延码本激

26、励线性预测编码LD-CELP ,速率为16kbit/s G.729 :采用基于共轭结构代数码本激励线性预测编码CS-ACELP ,速率为8kbit/s GSM :采用长时延线性预测规则码本激励RPE-LTP 编码,速率为13kbit/s CTIA:采用矢量和激励线性预测技术VSELP ,速率为8kbit/s,G.722:采用子带编码 ,数据速率为224kbit/s,MPEG音频: 采用MPEG-Audio算法,数据速率每声道达705kbits。它利用了人的听觉生理机能对输入信号进行快速付里叶变换,将时间域采样信号变换到频率域,然后计算功率谱,对于低于听力阈值的采样值不予编码,这样大幅度压缩数据

27、量。,AC-3:采用子带编码,数据率为320kbit/s 。AC-3标准通常适用于数字电视广播和HDTV系统的音频数据压缩。,2.3.2 静态图像压缩编码标准JPEG,静止图像压缩编码标准JPEG是由ISO联合图像专家组(Joint Photographic Expert Group)为单帧彩色图像的压缩编码而制定的标准,图像尺寸可以在165535行/帧,165535像素/行的范围内。采用此标准可将每像素24比特的彩色图像压缩至每像素12比特仍保持很好的质量。,JPEG确定的图像压缩标准的目标是:,编码器应该可由用户设置参数,以便用户在压缩比和图像质量之间权衡折衷标准可适用任意类连续色调的数字

28、静止图像,不限制图像的景像内容计算复杂度适中,只需一定能力的CPU就可实现,而不要求很高档的计算机,复杂的软件本身要易于操作定义了两种基本压缩编码算法和4种编码模式,采用算法:JPEG采用了混合编码方法,定义了两种基本压缩算法:基于DCT并应用行程编码和熵编码的有失真压缩算法。基于空间线性预测技术(即DPCM)的无失真压缩方法。,其中,有失真压缩算法又分基本系统 是一种基于DCT的简化编码方法,该系统保证必须的功能,可满足大多数应用的要求。所有JPEG编解码器都必须支持基本系统。输入图像精度为8bits/像素/色,支持顺序模式,采用Huffman 编码扩展系统 是为了满足更为广阔的应用要求而设

29、置的。增强了数据压缩能力,输入图像精度可达12bits/像素/色,支持渐进模式,可采用哈夫曼编码和算术编码。,JPEG算法的编码模式:JPEG定义了四种编码模式:DCT顺序模式 其基本算法是将图像分成8 8 的块,然后进行DCT变换、量化和熵编码(哈夫曼编码)。这种模式每个图像分量的编码一次扫描完成的。DCT渐进模式 所采用的算法与DCT顺序模式相类似,不同的是需要对图像进行多次扫描, 先传送部分DCT系数信息(如低频带的系数或所有系数的近似值),使接收端尽快获得一个“初略”的图像,然后再将剩余频带的系数渐次传送,最终形成清晰的图像。,下面是顺序模式和渐进模式的示意图,无失真编码模式 采用一维

30、或二维的空间域DPCM和熵编码。由于输入图像已经是数字化的,经过空间域的DPCM之后,预测误差值也是一个离散量,因此可以不再量化而实现无失真编码。分层编码模式 这是对一幅原始图像的空间分辨率,分成多个分辨率进行“锥形”的编码方法,水平(垂直)方向分辨率的下降以2的倍数因子改变,先对分辨率最低的一层图像进行编码,然后将经过内插的该层图像作为下一层图像的预测值,再对预测误差进行编码,以次类推,直到底层。,JPEG用基于DPCM的压缩算法来满足无 失真压缩图像数据的特殊应用场合,它选择了 简单的线性预测编码方法,具有实现容易,重建 图像质量好的特点。但压缩比太低, 大约为2:1,基于DPCM(差分脉

31、冲编码调制)的无失真编码:,编码器的简单原理框图如图所示,无失真编码器采用三邻域采样值法,由a、b、c预测x,如图2.17所示。用x表示x的预测值,x可由表2.2中的任选一个公式,并根据a、b、c的值得到。从x中减去x得到一个差值,再对差值进行无失真的熵编码(可采用哈夫曼或算术编码),DCT变换 这是正交变换中傅立叶变换中的一种特殊情况,叫作离散余弦变换( Discrete Cosine Transform)。在傅立叶级数展开式中,如果被展开的函数是实偶函数,那么,其傅立叶级数中只包含余弦项, 将其离散化就可导出余弦变换。离散余弦变换原理是:将信号从空间域变换到频率域,在频率域中,大部分的能量

32、集中在少数几个低频率系数上,而且代表不同空间频率分量的系数间的相关性大大减弱,只利用几个能量较大的低频系数就可以很好地恢复原始图像。,DCT压缩编码分成6个步骤:切割分块 首先把原始图像中单独的彩色图像分量(如亮度信号分量、色度信号分量)顺序分割成88 子块,即输入分量的样本被组成88大小的数据块。重采样并进行正交变换 离散余弦正变换FDCT可看作一个谐波分析仪,每个88 二维原图像采样数据块,实际上是64点离散信号,它们是空间二维坐标的函数,FDCT把它作为输入,然后把它分解成64个正交基信号,每个正交基信号对应于64个独立二维空间频率中的一个。FDCT的输出是64个基信号的幅值,称作DCT

33、系数, 这64个DCT系数中,有一个是直流系数(DC),其余63个是交流系数(AC)。,量化 量化处理是一个多到一的映射,在JPEG标准中采用线性均匀量化器,量化定义为,对64个DCT变换系数,除以量化步长,四舍五入取整得到。这里,量化器步长是量化表的元素,它随DCT变换系数的位置和每种颜色分量的色调值不同而不同。由于人眼对亮度信号比对色差信号更敏感,因此使用了两种量化表,即亮度量步长小于对应的色度量化步长;另外考虑到人眼对低频分量的图像比对高频分量的图像更敏感,因此量化表中左上角量化步长比右下角量化步长小。,量化后处理 量化后的DCT系数要重新编排,这样做可以增加连续的“0”系数的个数,也就

34、是说尽量增加“0”行程长度,最好的办法是采用“Z字蛇行”矩阵,如右图,这样就把88的矩阵变成一个164的矢量。,编码 由于变换后的“直流系数”数值较大,且相邻图像块系数数值变换不大,所以使用差分脉冲编码调制对直流系数进行编码。而量化的AC“交流系数的特点是164矢量中包含有许多0,且0是连续的,因此使用行程编码对交流系数进行编码。接着根据数据符号出现的概率高低进行熵编码,使DPCM编码后的直 流DC系数和交流系数进一步压缩。,组成位数据流 这是JPEG编码的最后一个步骤,即把各种标记代码和图像编码后的图像数据组成一帧一帧的数据,以便于传输、存储和译码器译码。,解码过程是编码过程的逆过程,解码

35、过程的框图如下:,2.3.3 数字图像压缩编码标准MPEG-1,MPEG-1标准概述,MPEG(Motion Picture Experts Group)标准是ISO/IEC委员会针对全活动视频的压缩标准系列,包含MPEG-1、MPEG-2、MPEG-4、MPEG-7、MPEG-21等。,MPEG-1:适用于传输速率为1.5Mbps的数字电视标准,91年提出草案,93年8月公布 MPEG-2:适用于传输速率为10Mbps 的数字电视标准,93年提出草案,94年11月公布 MPEG-3:适用于传输速率为40Mbps 的数 字电视标准,已被MPEG-2取代 MPEG-4:1999年12月公布的多媒

36、体应用标准 MPEG-7:多媒体内容描述接口标准,98年提出,2001年完成并公布 MPEG-21:正式名称是Multimedia ramework(多媒体框架),是为大范围的网络上实现透明的传输和对多媒体资源的充分利用而制定的标准,MPEG应用的数字存储媒体包括:CD-ROM,DAT(数字录音带),Disk(磁盘),CD-R(可写光盘),通信网络如ISDN(综合业务数字网)和LAN(局域网)等。视频压缩算法必须有与存储相适应的特性,即能够随机访问、快进/快退、检索、倒放、音像同步、容错能力、延时控制小于150ms、可编辑性以及灵活的视频窗口格式等,这些特性就构成了MPEG视频编码压缩算法的要

37、求和特点。,MPEG音频标准 该标准定义了音频数据的编码和解码。,MPEG视频标准 该标准定义了视频数据的编码和重建图像所需的解码过程。,MPEG系统标准 该标准定义了多道压缩音频、视频码流的的同步和合成。,在设计动态图像的编码算法时,主要矛盾是:一方面仅仅靠帧内编码方法是无法保证在有良好画面质量的前提下的高压缩比,另一方面用单一静止的帧内编码方法又能最好地满足随机存取的要求,为了同时满足高压缩比和随机存取的要求,MPEG推荐的标准化算法,必须使用帧间和帧内编码技术。,MPEG-1标准推荐的算法是以两个基本技术为基础的,一个是基于1616子块的运动补偿技术,用以减少帧序列的时域冗余度;另一个是

38、基于DCT的压缩技术,用以减少空域冗余度,在MPEG-1中,不仅帧内使用DCT,而且对帧间预测也使用DCT,以进一步减少数据量。,MPEG-1视频压缩技术,为了实现随机存取,最好要用帧内编码。 为了把编码电视图像的位速率限制在1.2Mbps, 既要有较高的压缩率,又要获得高质量的图像, 就要求在帧内和帧间编码之间进行折中。因 此,MPEG定义了3种图像:I图像(Intra Picture帧内图像)、P图像(Predicted Picture 预测图像)和B图像(Bidirectional Picture双向 预测图像。,典型的排列如图下所示。这三种图像将采用三种不同的算法进行压缩。,图像组一般

39、由一个I-图像帧、几个P-图像帧和若干个B-图像帧构成。,I-图像帧(Intra-coded picture):帧内编码图像帧,简称内帧。这类图像帧不参考其他图像帧而只利用自己的图像信息进行编码。,P-图像帧(Predictive-coded picture):预测编码图像帧,简称预测帧。此类图像帧利用最近的前一个I帧或P帧作为参考,采用带运动补偿的帧间预测进行编码,此过程称为前向预测,B-图像帧(Bidirectionally predictive-coded picture):双向预测编码图像帧。此类图像帧既利用过去的图像帧(I帧或P帧),也利用后来的图像帧(P帧)进行带运动补偿的双向预测

40、编码,此过程称为双向预测,帧内图像I不参照任何过去的或者将来的其他图 像帧,压缩编码采用类似JPEG压缩算法。如果电视图像是用RGB空间表示的,则首先把它转换成YUV空间表示的图像。每个图像平面分成88的图块,对每个图块进行离散余弦变换DCT,DCT变换后经过量化的交流分量系数按照“Z字蛇行”的形状排序,然后再用无损压缩技术进行编码。DCT变换后经过量化的直流分量系数用差分脉冲编码DPCM,交流分量系数用行程编码RLE,然后再用霍夫曼编码或者用算术编码。,P图像是用前面最近的一个I图像(或P图像)预测 编码得到的(前向预测),为了减少动态图像的时间冗 余,这里采用了运动补偿的预测编码。基于块的

41、运动补偿技术,就是在其参照帧中寻 找符合一定条件,与当前被预测块匹配最佳的块。 找到匹配块后,对预测的误差采用ADCT技术编码,在 恢复被预测块时,用匹配块加上预测误差即可。预测图像的编码是以图像宏块(macroblock)为 基本编码单元 , 一个宏块一般定义为1616像素的 的图像块。预测图像P使用两种类型的参数来表示:一种参 数是当前要编码的图像宏块与参考图像的宏块之间 的差值,另一种参数是宏块的移动矢量。,最佳匹配块及移动矢量的概念可借助下图说明,时刻1,时刻2,最佳匹配块,移动矢量,预测图像P的压缩编码算法框图,假设编码图像宏块MPI是参考图像宏块MRJ的最佳匹配块,它们的差值就是这

42、两个宏块中相应像素值之差。对所求得的差值进行彩色空间转换,并作4:2:0的子采样得到Y、U和V分量值,然后仿照JPEG压缩算法对差值进行编码,计算出的移动矢量也要进行霍夫曼编码。,可见,预测图像P的编码实际上就是寻找最佳匹 配图像宏块,找到最佳宏块之后就找到了最佳移动 矢量d(dx,dy),在整个MPEG图像压缩过程中,寻找最佳匹配宏块要占据相当多的计算时间匹配得越好,重构的图像质量越高。,双向预测 图像B的压缩 编码框图如右 图所示。具体 计算方法与预 测图像P的算 法类似,这里不再重复。,双向预测图像B在预测时,既可使用了前一个图像 作参照,也可使用下一个图像做参照或同时使用前后 两个图像

43、作为 参照图像(双 向预测)。,MPEG编码器算法允许选择I图像的频率和位置。 I图像的频率是指每秒钟出现I图像的次数,位置是 指时间方向上帧所在的位置。一般情况下,I图像 的频率为2。MPEG编码器也允许在一对I图像或者P 图像之间选择B图像的数目。I图像、P图像和B图像 数目的选择依据主要是节目的内容。例如,对于快速运动的图像,I图像的频率可以选择高一些,B图像的数目可以选择少一点;对于慢速运动的图像I图像的频率可以低一点,而B图像的数目可以选择多一点。此外,在实际应用中还要考虑媒体的速率。,典型的I、P、B帧次序安排如图,MPEG编码器需对上述图像重新排序, 以便解码器 高效工作, 因为

44、参照图像必须先于B图像恢复之前恢 复。上述17帧图像重排后图像组次序为:,图2.30 MPEG-1视频编码器结构示意图,当一系列视频图像输入时,其中场景相同的几幅画面前后相接构成了图像组。当一图像组的第一帧输入到编码器时,编码器即对其进行帧改组:首先将其分割成许多图像条,图像条的高度为16像素;再将图像条分割成16像素宽的段,从而构成1616的宏块;每个宏块又分成4个88的块,这些88块即是压缩处理的最小单位。,对于块的处理过程就是前面所描述的过程,即DCT、量化、Z形扫描和VLC编码(可变长编码,如游程码、哈夫曼编码) 。当第一块处理完后,以同样的过程处理第二块、第三块和第四块,这样就完成了

45、第一宏块的处理。接下来依次处理其他宏块,直至一帧乃至一个图像组。,当第一帧编码完成后,编码器将其数据进行存储和传送,这就是I帧。紧接着第二帧输入,并以同样的过程和方法对其进行处理,但编码器并非将第二帧完整的数据进行存储和传送,而是将它与第一帧进行比较运算。,若比较结果差别很小,表明第二帧相对第一帧变化不大,则只需将差值部分存储,从而舍弃了大部分数据。按此方法对其后的帧进行处理,直到找到某一帧与第一帧的差别超过规定值,则将此帧与第一帧的差别(包括位移量和差值)存储起来,并将此帧排列在第一帧后传送出去,这就是P帧。,在传送了I、P帧后,再将第二、三帧的差别传送出去,这些处在I、P之间变化不大的帧就

46、是B帧。以此类推,不断选出P和B帧。每隔13或15帧后或者是当场景变更,形成一幅与前不同的新画面时,再设立一个I帧。两个I帧间的播放时间为0.5秒。,块经比较运算器送入DCT单元,若为第一帧的第一块,则无反馈信号,经DCT形成64个系数数据,经量化器并参照存于编码器中的64位量化表,得到64个量化数据,经VLC送入混合器,再经缓冲输出。,缓冲器是图像数据经压缩后的编码暂存处。在控制指令指挥下,将图像编码数据按I,P,B顺序输出。调整器不断检测缓冲器的充盈度,根据缓冲器满或空的情况,调整量化器的量化步长,从而调整码率,进而完成防溢防空反馈控制。,反馈回路是用作预测图像产生和图像分类处理的参考比较

47、信号通路。反馈数据经Q1和IDCT还原成压缩前的图像信息,存入帧存储器,作为以后各帧处理时的比较数据。当下一帧输入时,从帧存储器中取出上一帧的数据,并送到比较器,与当前帧进行比较,以区分I、P、B各种图像帧类型。,动作预测器设有图像寄存功能,它不断将前后两图像帧进行差值检测,形成运动向量,并根据两帧差别的大小输出I、P、B各类编码模式控制信号。,运动向量和编码模式一方面送入帧存储器,与存储的信息共同产生预测画面信息,用于与当前画面的比较。若预测画面与当前画面一致,则比较器无输出,DCT则无变换任务,因此无数据进入缓冲器,这样便提高了编码率,加大了压缩比。另一方面,它直接送到多路混合器,与压缩数

48、据一起送入缓冲器,作为运动补偿向量数据编码输出,供解码时参考合成运动预测图像,同时也通过编码模式控制缓冲器对I、P、B帧数据的处理,并在编码中标出各画面的类型及各种类型帧所需要的缓冲器空间尺寸,供解码时参考。,解码过程是编码过程的逆过程,2.3.4 通用视频图像压缩编码标准MPEG-2,MPEG-2标准是一种既能兼容MPEG-1标准,又能满足高分辨率数字电视和高分辨率数字卫星接收机等方面要求的技术标准,它是由ISO的活动图像专家组和ITU-TS的15研究组于1994年共同制定的,在ITU-TS的协议系列中,被称为H.262。,MPEG-2的初始设计目标是得到一个针对广播电视质量(CCIR601

49、格式)的视频信号的压缩编码标准,但实际上最后得到一个通用的标准,它能在很宽的范围内对不同分辨率和不同输出比特率的图像信号有效地进行编码。在图像格式方面,可进行诸如标准清晰度电视、高清晰度、隔行扫描、顺序扫描等各种分辨率和信号形式的影像编码。在声音格式方面, 它扩充了MPEG-1的功能, 是一种多通道/多语言的声音编码。,当初制定MPEG-2是针对以下目标实施的:,高质量:图像质量应该高于现行NTSC、PAL和SECAM广播系统。宽带宽: 对CCIR601标准格式的数字电视信号,压缩后码率为4Mbit/s到10Mbit/s。灵活性: 标准需要足够的灵活性,以便适用于高性能、高复杂性和低性能、低复杂性编码系统。兼容性: 标准应该充分重视已存在的标准,兼容性能保证新标准的平稳过渡,保持新旧标准设备之间的互操作性,兼容性应该保持尽可能大的范围。,MPEG-2标准主要分为四部分。 第一部分:系统。该部分说明了MPEG-2的系统编码层。它定义了视频和音频数据的复合结构和实时实现同步的方法。 第二部分:视频。此部分说明了视频数据的编码表示和重建图像所需要的解码处理过程。 第三部分:音频。此部分说明了多个通道音频数据的编码表示。 第四部分:一致性测试。此部分说明了检测编码比特流特性的过程以及测试与上述三部分所要求的一致性。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报