1、运动图像压缩标准,13.1电视图象数据率,ITU-R BT.601标准数据率 在PAL、NTSC和SECAM彩色电视制之间确定一个共同的数字化参数 使用4:2:2的采样格式,亮度信号Y的采样频率选择为13.5 MHz/s,而色差信号Cr和Cb的采样频率选择为6.75 MHz/s,10.1电视图象数据率,亮度(Y): 858样本/行525行/帧30帧/秒10比特/样本 = 135兆比特/秒(NTSC) 864样本/行625行/帧25帧/秒10比特/样本 = 135兆比特/秒(PAL) Cr (R-Y): 429样本/行525行/帧30帧/秒10比特/样本 = 68兆比特/秒(NTSC) 429样
2、本/行625行/帧25帧/秒10比特/样本 = 68兆比特/秒(PAL) Cb (B-Y):429样本/行525行/帧30帧/秒10比特/样本 = 68兆比特/秒(NTSC) 429样本/行625行/帧25帧/秒10比特/样本 = 68兆比特/秒(PAL) 总计: 27兆样本/秒10比特/样本 = 270兆比特/秒,10.1电视图象数据率,如屏幕分辨率为720x480,子采样是4:1:1则 亮度(Y): 7204803010= 104 Mb/s (NTSC) 7205762510 = 104 Mb/s (PAL) 色差(Cr,Cb) 23602403010= 52 Mb/s (NTSC) 23
3、602882510 =52 Mb/s (PAL) 总计: 156 Mb/s 如果每个样本的采样精度由10比特降为8比特,彩色数字电视信号的数据传输率就降为125 Mb/s。,VCD数据率估算,Video-CD存储器来存储数字电视,数据传输率可达到1.4112 Mb/s,其中电视信号的数据传输率为1.15 Mb/s 如果存储125Mb/s的数字电视信号就需要对它进行高度压缩,压缩比高达125/1.15 = 109:1 把NTSC和PAL数字电视转换成公用中分辨率格式CIF的数字电视,相当于VHS(Video Home System)的质量: 3522403081.5= 30 Mb/s (NTSC
4、) 3522882581.5 = 30 Mb/s (PAL)。 彩色电视信号存储到CD盘上所需要的压缩比为: 30/1.15 = 26:1。 是MPEG-1技术所能获得的压缩比。,DVD数据率估算,电视图像的数据率压缩成平均为3.5 Mb/s 4.7 Mb/s时非专家难于区分电视图像在压缩前后的之间差别。 按照数字电视信号的平均数据传输率为4.1 Mb/s来计算,压缩比要达到: 125/4.10=31:1,10.2数据压缩算法,视频压缩基本方法, 在空间方向上,图像数据压缩采用JPEG(Joint Photographic Experts Group)压缩算法来去掉冗余信息。 在时间方向上,图
5、像数据压缩采用移动补偿(motion compensation)算法来去掉冗余信息。,图象分类,帧内图像I,预测图像P和双向预测图像B,帧内图象压缩,I图象压缩基本过程,如果电视图像是用RGB空间表示的,则首先把它转换成YCrCb空间表示的图像。 每个图像平面分成88的图块,对每个图块进行离散余弦变换DCT(discrete Cosine Transform)。 DCT变换后经过量化的交流分量系数按照Zig-zag的形状排序,然后再使用无损压缩技术进行编码。 DCT变换后经过量化的直流分量系数用差分脉冲编码DPCM(Differential Pulse Code Modulation),交流分
6、量系数用行程长度编码RLE(run-length encoding), 然后再用霍夫曼(Huffman)编码或者用算术编码。,预测图像P的压缩编码算法,预测图像的编码也是以图像宏块(macroblock)为基本编码单元,一个宏块定义为IJ像素的图像块,一般取1616。 预测图像P使用两种类型的参数来表示:一种参数是当前要编码的图像宏块与参考图像的宏块之间的差值,另一种参数是宏块的移动矢量。,预测图象P,预测图象编码,假设编码图像宏块MPI是参考图像宏块MRJ的最佳匹配块,它们的差值就是这两个宏块中相应像素值之差。 对所求得的差值进行彩色空间转换,并作4:1:1的子采样得到Y,Cr和Cb分量值,
7、 然后仿照JPEG压缩算法对差值进行编码,计算出的移动矢量也要进行霍夫曼编码。,预测图象原理图,移动矢量计算,差值最小判断,绝对值最小:,均方误差最小:,平均绝对帧差最小:,二维对数搜索法,三步搜索法,对偶搜索法,MPEG-2的配置和等级,信噪比可变性(Signal-to-Noise Scalability) 图像质量的折中,对于数据率比较低的解码器使用比较低的信噪比,而对数据率比较高的解码器则使用比较高的信噪比 空间分辨率可变性(Spatial Scalability) 图像的空间分辨率的折中,对于低速率的接受器使用比较低的图像分辨率,而对于数据率比较高的接受器使用比较高的图像分辨率 时间分
8、辨率可变性(Temporal Scalability) 图像在时间方向上分辨率的折中,MPEG-2的配置,MPEG-2的等级,MPEG-2的等级,MPEG-2配置与等级,MPEG-2配置与等级,MPEG-4编码标准,MPEG-4 Video编码算法支持由MPEG-1和MPEG-2提供的所有功能,包括对各种输入格式下的标准矩形图像、帧速率、位速率和隔行扫描图像源的支持。 MPEG-4 Video算法的核心是支持内容基(content-based)的编码和解码功能,也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。 实现预想的内容基交互等功能,MPEG-4 Video验证模型引进了一个
9、叫做“电视图像对象区(Video Object Plane,VOP)”的概念 。,电视图像对象区,电视图象对象区,编码器输入的是任意形状的图像区,图像区的形状和位置也可随帧的变化而改变。 属于相同物理对象的连续的电视图像对象区(VOP)组成电视图像对象(Video Objects,VO)。 MPEG-4可单独对属于相同电视图像对象(VO)的电视图像区(VOP)的形状、移动(motion)和纹理(texture)信息进编码和传送,或者把它们编码成一个单独的电视图像对象层(Video Object Layer,VOL)。 电视图像对象层(VOL)的信息也包含在编码后的位流(bitstream)中,
10、信息包括各种电视图像对象层(VOL)的电视图像在接收端应该如何进行组合,以便重构完整的原始图像序列。 MPEG-4采用内容基编码方法的重要优点是,使用合适的和专门的对象基移动预测工具(object-based motion prediction tools)可以明显提高场景中电视图像对象的压缩效率。,电视图像编码方案,MPEG-4 Video验证模型对每个电视图像对象(VO)的形状、移动和纹理信息进行编码形成单独的VOL层,以便能够单独对电视图像对象(VO)进行解码。 如果输入图像序列只包含标准的矩形图像,就不需要形状编码,在这种情况下,MPEG-4 Video使用的编码算法结构也就与MPEG
11、-1和MPEG-2使用的算法结构相同。 MPEG-4 Video验证模型对每个电视图像对象区(VOP)进行编码使用的压缩算法是在MPEG-1和MPEG-2 Video标准的基础上开发的,它也是以图像块为基础的混合DPCM和变换编码技术(hybrid DPCM/Transform coding)。 MPEG-4编码算法也定义了帧内电视图像对象区(I-VOP)编码方式和帧间电视图像对象区预测(P-VOP)编码方式,它也支持双向预测电视图像对象区(B-VOP)方式。 在对电视图像对象区(VOP)的形状编码之后,颜色图像序列分割成宏块进行编码,I-VOP和P-VOP编码方式和宏块结构,MPEG-4 V
12、ideo编码器的算法,MPEG-4电视序列编码举例,电视图像分辨率可变编码,电视图象分辨率 空间分辨率是指一帧图像包含的行数与每行显示的像素数之乘积 时间分辨率是指每秒种显示或者传输的图像帧数。 可变编码目的 设置电视图像分辨率可变编码功能的一个重要目的是为了能够灵活支持性能不同(例如不同带宽)的各种电视接收或显示设备,或者支持要求浏览电视数据库等方面的应用。 另一个目的是提供分层次的电视图像数据位流,这样可按应用所要求的先后次序进行传输。,图象可变编码,MPEG-2也有电视图像分辨率可变编码功能,但它是以图像的帧为基础进行编码。 MPEG-4电视图像分辨率可变编码是以任意形状的电视图像对象区
13、(VOP)为基础进行编码。,图象分辨率可变举例,HDTV格式,HDTV格式,* I表示隔行扫描;P表示非隔行扫描 * HDTV的长宽比为16:9; NTSC, PAL和SECAM为4:3 * 支持整数和非整数帧速率(60.00, 59.94;30.00, 29.97;24.00, 23.98),可伸缩视频编码,前面介绍的编码技术的目的都是以最佳的编码效率产生恒定比特率码流。具体来说,就是在可接受的视频质量前提下,使编码器产生最少的码流信息;或者说,在固定码流输出条件下,得到最佳的视频编码质量。但是,当很多个用户试图通过不同带宽的网络同时访问同一个视频时,想要获得相同质量的视频内容就很困难了。例
14、如,用户A和用户B分别以1.5 Mb/s带宽和56kb/s带宽接入到视频服务器,他们同时点播下载一个以1.5 Mb/s编码的MPEG-1视频,结果用户A可以实时地接收并播放该视频,用户B却由于带宽不足而不能得到足够比特来进行实时播放。,为了使得用户A和B都能实时播放视频,需要对视频序列进行可伸缩视频编码(ScalableVideoCoding,SVC)。可伸缩视频编码是指对视频序列分级别进行编码,解码器可以根据接收的码流级别进行相应解码,得到不同质量的视频内容。在前面的例子中,如果MPEG-1视频是可伸缩的,则用户A可以得到全部码流信息,播放高质量的视频,用户B也可以接收部分码流,播放低质量的
15、视频。,可伸缩视频编码的方法包括空域可伸缩编码、时域可伸缩编码、质量(信噪比)可伸缩编码、频率可伸缩编码、精细颗粒度的可伸缩编码和基于小波变换的可伸缩编码等。可伸缩编码的码流为视频序列提供一个基本层和一个或多个增强层。解码器接收到码流后,可以由基本层重建基本图像质量,由基本层和增强层重建较好的图象质量,这样用户可以根据不同的应用环境和不同的需求来进行解码。,即使增强层的码流发生误码或者丢失,解码器也能够恢复一定质量的图像内容。可以说,可伸缩视频编码解决了网络和终端异构的问题,为任何人在何时何地采用何种设备通过何种方式获取视频提供了可操作性。因此,许多视频编码国际标准如MPEG-2、MPEG-4
16、、H.263和H.264等都采用了可伸缩视频编码方法。,1. 空域可伸缩视频编码 空域可伸缩编码是指将一个视频序列中的每一个视频帧都编码成多个不同空间分辨率的输出码流,其基本层由最低分辨率的码流构成,增强层由分辨率比基本层高的码流构成。解码器接收到基本层后可以恢复出基本的视频内容,而接收到增强层后可以恢复出较好质量的视频内容,增强层越多,空间分辨率越高,恢复的视频质量越好。,2 时域可伸缩视频编码 1)基于帧的时域可伸缩视频编码 时域可伸缩视频编码可以通过改变时间分辨率或帧率的方式来得到不同比特率的码流。基本层的帧率最低,随着增强层的增多,帧率也越来越高,最后达到与原始视频相同的帧率。基于帧的
17、时域可伸缩编/解码器的示意图和空域可伸缩编/解码器一样,只是空域可伸缩编/解码器使用空域下采样和上采样,而时域可伸缩编/解码器使用时域下采样和上采样。进行时域下采样最简单的方法是跳帧,如只选用奇数帧而丢弃偶数帧。进行时域上采样最简单的方法是帧复制,如偶数帧都选用它前面相邻的奇数帧。这样,不同层的视频序列具有不同的帧率。,2.)基于物体的时域可伸缩视频编码 基于帧的时域可伸缩视频编码是对原始视频序列以整帧的方式进行时域下采样和上采样。MPEG-4标准为了能够适应具有任意形状的VOP编码,采用基于物体的时域可伸缩编码(Object-BasedTemporalScalability,OTS)。OTS
18、不是对整个帧而是对被选择的物体进行下采样和上采样,这样该物体的帧率要比其他区域高,可以得到更加平滑的运动效果。,3) 质量可伸缩视频编码 在编码过程中,视频序列需要经过DCT变换、量化和熵编码后发送到信道进行传输。在量化过程中若量化步长不同,则恢复的视频质量也不同。量化步长大即粗量化,恢复的视频质量差,峰值信噪比PSNR小;量化步长小即细量化,恢复的视频质量好,PSNR大,不过压缩后比特数多。根据量化步长不同、恢复的视频质量不同,可以采用质量可伸缩视频编码,也称为SNR可伸缩视频编码。,4) 频率可伸缩视频编码 图像具有不同频率的分量:低频分量反映图像的轮廓,是图像信号主要能量的反映;高频分量
19、则反映图像的细节内容,高频分量越多,重建图像就越清晰。频率可伸缩编码就是将图像按照不同的频率分量进行编码。基本层到增强层包含从低频到高频不同的频率分量。基本层提供图像的大体概貌,加上各增强层将产生逐渐清晰的图像。 频率可伸缩编码可以采用整帧变换如子带变换和小波变换,也可以采用基于块的变换。MPEG-2标准中的数据分割就是基于块的变换,其基本层包括模式信息、运动信息和各个宏块的前几个DCT系数,增强层包括其余的DCT系数。,5) 精细颗粒度的可伸缩视频编码 前面描述的可伸缩视频编码方法将视频序列编码为基本层和增强层码流,可以在一定程度上满足不同用户接入同一视频的需求。但是这些方法把视频压缩为一个
20、或几个固定码率的码流,不能适应带宽变化范围大和码率不固定的视频传输。为了能够满足视频传输的新要求,MPEG-4制定了精细颗粒度的可伸缩(FineGranularityScalability,FGS)编码方案。该方案将视频编码成一个可单独解码的基本层码流和一个可以在任意地点截断的增强层码流,其中基本层码流适应最低的网络带宽,增强层码流用来适应网络带宽动态变化的范围,6)视频编码国际标准中的可伸缩视频编码方法 1.目前视频编码标准中的可伸缩性 早期的视频编码标准如H.261和MPEG-1标准没有提供任何的可伸缩机制,原因之一是这两种标准为特定的应用如会话业务和存储所设计,这类应用不需要可伸缩性。M
21、PEG-2是第一个提供可伸缩技术的视频编码标准,它提出了分层编码的概念,支持空域、时域和质量可伸缩编码以及数据分割,但是最多只编码3层码流。 MPEG-4提供了更为灵活的可伸缩工具,包括空域时域和精细颗粒度可伸缩视频编码。而MPEG-4的“简单档次”模式和H.263基本编码器一样,不提供任何可伸缩性。H.263的修订版本H.263和H.263都提供了空域、时域和质量可伸缩编码方法。最新的视频编码标准H.264作为MPEG-4的第10部分,提供了更多的可伸缩模式。,2.基于AVC/H.264和基于小波的可伸缩视频编码方案 为了在复杂度、带宽、功率和播放分辨率上支持不同终端的用户,MPEG委员会定义了一个可伸缩视频编码框架,该框架可以在低复杂度和低时延的情况下提供多种空域、时域和质量可伸缩性。为了满足可伸缩性的需求,在2004年2月人们提交了20多个草案。根据空域变换的不同,这些草案分成两大类,即基于AVC/H.264的方案和基于小波的方案。,