1、数字视频信号信源编码基础,周志泽,目录,一、数字视频编码标准概述-3 二、MPEG-2视频编码标准-7 三、H.264/AVC视频编码标准 -36 四、AVS视频编码标准-71五、AVS+视频编码标准-86,目录,一、数字视频编码标准概述,数字视频编码标准概述,数字视频通信是一个复杂且计算强度很大的工程,它要求系统能满足接收来自不同信源的视频信号的要求。数字视频通信标准标准主要是为视频通信(如电视、电话等应用)开发的,以使新馆产业能向用户提供合理价位的有效带宽应用服务。数字视频处理技术在通信、电子消费、军事、工业控制等领域的广泛应用促进了数字视频编码技术的快速发展,并催生出一系列的国际标准。近
2、年来,国际标准化组织ISO、国际电工委员会IEC和国际电信联盟ITU-T相继制定了一系列视频图像编码的国际标准,有力地促进了视频信息的广泛传播和相关产业的巨大发展。,数字视频编码标准概述,视频压缩标准的演变过程,数字视频编码标准概述,目录,二、MPEG-2视频编码标准,MPEG-2视频编码标准,MPEG是运动图像专家组(Moving Picture Experts Group)的简称,其实质上的名称为国际标准化组织(ISO)和国际电工委员会(IEC)联合技术委员会(JTC)1的第29 分委员会的第11工作组,即ISO/IEC JTC1/SC29/WG11,成立于1988年。其任务是制定世界通用
3、的视音频编码标准。因为,广播电视数字化所产生的海量数据对存储容量、传输带宽、处理能力及频谱资源利用率提出了不切合实际的要求,使数字化难以实现。为此,该专家组基于帧内图像相邻像素间及相邻行间的空间相关性和相邻帧间运动图像的时间相关性,采用压缩编码技术,将那些对人眼视觉图像和人耳听觉声音不太重要的东西及冗余成分抛弃,从而缩减了存储、传输和处理的数据量,提高了频谱资源利用率,制定了一系列MPEG标准,使数字化正在变为现实。,MPEG-2视频编码标准,MPEG-2视频编码标准,MPEG-2视频编码标准,1.系统的定义MPEG-2系统是将视频、音频及其它数据基本流组合成一个或多个适宜于存储或传输的数据流
4、的规范,如图1所示。由图1可见,符合ITU-R. 601标准的、帧次序为I1B2B3P4B5B6P7B8B9I10数字视频数据和符合AES/EBU标准的数字音频数据分别通过图像编码和声音编码之后,生成次序为I1P4B2B3P7B5B6I10B8B9视频基本流(ES)和音频ES。,MPEG-2视频编码标准,MPEG-2视频编码标准,在视频ES中还要加入一个时间基准,即加入从视频信号中取出的27MHz时钟。然后,再分别通过各自的数据包形成器,将相应的ES打包成打包基本流(PES)包,并由PES包构成PES。最后,节目复用器和传输复用器分别将视频PES和音频PES组合成相应的节目流(PS)包和传输流
5、(TS)包,并由PS包构成PS和由TS包构成TS。显然,不允许直接传输PES,只允许传输PS和TS;PES只是PS转换为TS或TS转换为PS的中间步骤或桥梁,是MPEG数据流互换的逻辑结构,本身不能参与交换和互操作。由系统的定义,可知MPEG-2系统的任务。,MPEG-2视频编码标准,MPEG-2的编码码流(ES)采用分层结构,共分六个层次 视频序列层 (Sequence) 序列指构成某路节目的图像序列,序列起始码后的序列头中包含了图像尺寸,宽高比,图像速率等信息。序列扩展中包含了一些附加数据。为保证能随时进入图像序列,序列头是重复发送的。 图像组层 (GOP,Group of Picture
6、) 一个图像组由相互间有预测和生成关系的一组I、P、B图像构成,但头一帧图像总是I帧。GOP头中包含了时间信息。 图像层 (Picture) 分为I、P、B三类。PIC头中包含了图像编码的类型和时间参考信息。 片(像条)层 (Slice) 一个像条包括一定数量的宏块,其顺序与扫描顺序一致。MPML中一个像条必须在同一宏块行内。 宏块层 (Macro Block) 像块层 (Block) 像块是MPEG-2码流的最底层,是DCT变换的基本单元。MPML中一个像块由8x8个抽样值构成。,MPEG-2视频编码标准,MPEG-2视频编码标准,MPEG-2视频编码标准,MPEG标准所规定的视频编码算法在
7、实现高压缩比的同时,又能获得较高的重建图像质量,并且还要满足能够随机存取的要求。如果只采用帧内编码,则不可能在高的压缩比下获得好的图像质量,所以必须要采用帧间编码,但要能随机存取,则用帧内编码最容易实现。这就要在帧间和帧内编码之间仔细地平衡。不仅如此,MPEG视频编码算法在利用运动补偿帧间预测来减少时间冗余度时,不仅用上一帧的图像来预测当前帧图像,而且也用下一帧图像来预测当前帧图像,即双向预测。所以,MPEG标准将编码图像分为三种类型,分别称为I(Intra)帧、P(Predicated)帧和B(Bi-directional)帧。,MPEG-2视频编码标准,1I帧I帧,又称帧内编码帧,是作为预
8、测基准的独立帧。该帧采用类似JPEG算法的帧内DCT编码,只利用了本帧图像内的空间相关性,而没有利用时间相关性,所以I帧图像的压缩比相对较低。设置I帧的主要理由是:(1)当某帧找不到匹配的参考帧时,就只好进行帧内编码,场景切换或图像中的“遮挡”和“暴露”部分就是这种情况的例子;(2)解码I帧不需要参考帧,因而可以在I帧进行码流的切换和编辑等操作,提供随机存取的插入点;(3)长时间连续地进行预测编码,预测误差会不断累积,使压缩效率逐渐降低,图像质量不断下降。为防止解码图像损伤的逐渐加剧,需定时进行帧刷新,即周期性地插入I帧,以便重新开始一个新的预测编码过程。,MPEG-2视频编码标准,2P帧P帧
9、,又称前向预测编码帧。它用前面最近的I帧或P帧作为参考进行前向预测,采用带运动补偿的帧间预测编码方式。由于同时利用了空间和时间上的相关性,所以P帧比I帧的压缩效率高。P帧也可作为参考帧。 3B帧B帧,又称双向预测编码帧。它既用源视频序列中位于前面且已编码的I帧或P帧作为参考帧,进行前向运动补偿预测,又用位于后面且已编码的I帧或P帧作为参考帧,进行后向运动补偿预测。即B帧可采用帧内编码、前向预测编码、后向预测编码、或双向预测编码4种技术,其压缩比最高。但B帧不能用作对其他帧进行运动补偿预测的参考帧。,MPEG-2视频编码标准,图像编码时的顺序:IBBPBBBP 图像传送时的顺序:IPBBPBBB
10、 图像恢复时的顺序:IBBPBBBP,I帧、P帧 与 B 帧的示意图如下图所示。,MPEG-2视频编码标准,亮度与色度信号 由输入视频分离出三基色R、G、B 转换成亮度与色度信号Y、Cb、Cr 公式 Y=0.30R+0.60G+0.10BCr=0.625(R-Y)+0.5Cb=0.5(R-Y)+0.5像块(Block) 亮度和色度信号样点分别被分割成8*8的像素块,即为像块。 宏块(Macro Block, MB) 同一个区域的若干个像块构成一个宏块。 宏块结构 4:2:0宏块 4:2:2宏块 4:4:4宏块,MPEG-2视频编码标准,MPEG-2视频编码标准,MPEG-2视频编码标准,MPE
11、G-2视频编码标准,MPEG-2视频编码标准,图像的两种特性 空间相关性 一帧图像内的任何一个场景都是由若干像素点构成的,因此一个像素通常与它周围的某些像素在亮度和色度上存在一定的关系,这种关系叫作空间相关性 时间相关性 一个节目中的一个情节常常由若干帧连续图像组成的图像序列构成,一个图像序列中前后帧图像间也存在一定的关系,这种关系叫作时间相关性 图像的冗余信息两种相关性使得图像中存在大量的冗余信息。 MPEG-2图像压缩的原理 去除冗余信息,只保留少量非相关信息进行传输,可以大大节省传输频带。接收机利用这些非相关信息,按照一定的解码算法,可以在保证一定的图像质量的前提下恢复原始图像。一个好的
12、压缩编码方案就是能够最大限度地去除图像中的冗余信息。,MPEG-2视频编码标准,MPEG图像视频编码器的组成框图,MPEG-2视频编码标准,MPEG-2视频压缩方案中关键技术介绍1、余弦变换DCT2、量化器3、之型扫描与游程编码4、熵编码5、运动估计6、运动补偿,MPEG-2视频编码标准,1.DCT 离散余弦变换(discrete cosine transform ) 什么是DCT 它是一种空间变换,在MPEG-2中DCT以8x8的像块为单位进行,生成的是8x8的DCT系数数据块。 DCT变换的最大特点 对于一般的图像都能够将像块的能量集中于少数低频DCT系数上,即生成8x8DCT系数块中,仅
13、左上角的少量低频系数数值较大,其余系数的数值很小,这样就可能只编码和传输少数系数而不严重影响图像质量。 作用 DCT不能直接对图像产生压缩作用,但对图像的能量具有很好的集中效果,为压缩打下了基础。,MPEG-2视频编码标准,2.量化器目的 量化是针对DCT处理结果(即DCT系数)进行压缩。量化过程 就是以某个量化步长,去除不必要的DCT系数,从而降低传输比特率 。量化精度 量化步长的大小称为量化精度,量化步长越小,量化精度就越细。原理 量化以人眼的生理特性为依据。人眼对低频分量和亮度信号比较敏感,而对高频分量和色度信号不太敏感。因此,对亮度系数和低频分量采用较细的量化,色度系数和高频分量采用较
14、粗的量化。 由于DCT系数表左上方对应于图像的低频分量,右下方对应于图像的高频分量,所以量化步长左上方小、右下方大。这样,经量化之后所得的数据一般都集中在左上方,右下方高频系数多数为零,从而达到压缩DCT系数的目的。 通常情况下,一个DCT变换块中的大多数高频系数量化后都会变为零。,MPEG-2视频编码标准,3.之型扫描与游程编码目的: DCT变换产生的是一8x8的二维数组,为进行传输,还须将其转换为一维排列方式。二维到一维的转换方式(扫描方式) 之型扫描(Zig-Zag) 交替扫描之型扫描 最常用的一种。 由于经量化后,大多数非零DCT系数集中于8x8二维矩阵的左上角,即低频分量区。 之型扫
15、描后,这些非零DCT系数就集中于一维排列数组的前部,后面跟着长串的量化为零的DCT系数,这些就为游程编码创造了条件。 游程编码 只有非零系数被编码。 一个非零系数的编码由两部分组成 前一部分表示非零系数前的连零的个数(称为游程), 后一部分是那个非零系数。优点 之型扫描在大多数情况下出现连零的机会比较多,游程编码的效率就比较高。 当一维序列中的后部剩余的DCT系数都为零时,只要用一个“块结束”标志(EOB)来指示,就可结束这一8x8变换块的编码,产生的压缩效果是非常明显。,MPEG-2视频编码标准,4.熵编码目的 量化仅生成了DCT系数的一种有效的离散表示,实际传输前,还须对其进行比特流编码,
16、产生用于传输的数字比特流。编码方法的选择 定长码:即每个量化值以同样数目的比特表示,方法简单、效率较低。 熵编码:是基于编码信号的统计特性,使得平均比特率下降。可以提高编码效率。霍夫曼编码 是熵编码中使用较多的一种。 MPEG-2视频压缩系统中采用的就是霍夫曼编码。霍夫曼编码效果 在确定了所有编码信号的概率后生产一个码表,对经常发生的大概率信号分配较少的比特表示,对不常发生的小概率信号分配较多的比特表示,使得整个码流的平均长度趋于最短。,MPEG-2视频编码标准,5.运动估计目的 用于帧间编码方式,通过参考帧图像产生对被压缩图像的估计。运动估计的准确程度 准确程度对帧间编码的压缩效果非常重要。
17、 如果估计作的好,被压缩图像与估计图像相减后,只留下很小的值用于传输。运动估计的算法 以宏块为单位进行,计算被压缩图像与参考图像的对应位置上的宏块间的位置偏移。 这种位置偏移是以运动矢量来描述的。 一个运动矢量代表水平和垂直两个方向上的位移。特点 运动估计时,P帧和B帧图像所使用的参考帧图像是不同的。前向预测 P帧图像使用前面最近解码的I帧或P帧作参考图像。双向预测 B帧图像使用两帧图像作为预测参考。其中一个参考帧在显示顺序上先于编码帧(前向预测),另一帧在显示顺序上晚于编码帧(后向预测), B帧的参考帧在任何情况下都是 I 帧或P帧。,MPEG-2视频编码标准,6.运动补偿 方法 利用运动估
18、计算出的运动矢量,将参考帧图像中的宏块移至水平和垂直方向上的相对应位置,即可生成对被压缩图像的预测。 效果 绝大多数的自然场景中运动都是有序的。 因此这种运动补偿生成的预测图像与被压缩图像的差分值是很小的。,MPEG-2视频编码标准,帧内编码与帧间编码流程的区别帧内编码 只与当前视频帧信息有关。 帧内编码图像仅经过DCT,量化器和比特流编码器即生成编码比特流,而不经过预测处理。 DCT直接应用于原始的图像数据。 帧间编码 帧间编码主要解决时间冗余问题。 输入的帧数据与经过运动补偿的前帧信号相减,对差值数据进行DCT。 再进行量化处理,之字形扫描,熵编码,然后输出。 区别 帧内编码与帧间编码流程
19、的区别在于是否经过预测环节的处理。,目录,三、H.264/AVC视频编码标准,H.264/AVC视频编码标准,目前国际上制定视频编解码技术的组织有两个,一个是“国际电联(ITU-T)”,它制定的标准有H.261、H.263、H.263+等,另一个是“国际标准化组织(ISO)”它制定的标准有MPEG-1、MPEG-2、MPEG-4等。而H.264则是由两个组织联合组建的联合视频组(JVT)共同制定的新数字视频编码标准,所以它既是ITU-T的H.264,又是ISO/IEC的MPEG-4高级视频编码(Advanced Video Coding,AVC),而且它将成为MPEG-4标准的第10部分。又称
20、为“先进视频编码”。 H.264标准的主要目标是:高的视频压缩比,当初提出的指标是比 H.263,MPEG-4,约为它们的2 倍,现在都已基本实现;良好的网络亲和性,即可适用于各种传输网络。,H.264/AVC视频编码标准,H.264/AVC视频编码标准,H.264最大的优势是具有很高的数据压缩比率,在同等图像质量的条件下,H.264的压缩比是MPEG-2的2倍以上,是MPEG-4的1.52倍。 举个例子,原始文件的大小如果为88GB,采用MPEG-2压缩标准压缩后变成3.5GB,压缩比为251,而采用H.264压缩标准压缩后变为879MB,从88GB到879MB,H.264的压缩比达到惊人的
21、1021!H.264为什么有那么高的压缩比?低码率(Low Bit Rate)起了重要的作用,和MPEG-2和MPEG-4 ASP等压缩技术相比,H.264压缩技术将大大节省用户的下载时间和数据流量收费。尤其值得一提的是,H.264在具有高压缩比的同时还拥有高质量流畅的图像。应用范围:主要应用于视频娱乐、数字电视广播、高清电视 、视频通信服务、H.320 电路交换通信、3G视频会话视频流服务、在线视频存储和点播、其它等;,H.264/AVC视频编码标准,H.264整体框架图,分层设计,H.264/AVC视频编码标准,H.264的算法在概念上可以分为两层: 视频编码层(Video Coding
22、Layer, VCL )VCL:视频内容的核心压缩内容之表述,负责高效的视频内容表示; 网络提取层(Network Abstraction Layer, NAL)NAL:通过特定类型网络进行递送的表述,负责以网络所要求的恰当的方式对数据进行打包和传送。在VCL和NAL之间定义了一个基于分组方式的接口,打包和相应的信令属于NAL的一部分。这样,高编码效率和网络友好性的任务分别由VCL和NAL来完成,便于信息的封装和对信息进行更好的优先级控制。 VCL层包括基于块的运动补偿混合编码和一些新特性。与前面的视频编码标准一样,H.264没有把前处理和后处理等功能包括在草案中,这样可以增加标准的灵活性。,
23、H.264/AVC视频编码标准,NAL负责使用下层网络的分段格式来封装数据,包括组帧、逻辑信道的信令、定时信息的利用或序列结束信号等。例如,NAL支持视频在电路交换信道上的传输格式,支持视频在Internet上利用RTP/UDP/IP传输的格式。NAL包括自己的头部信息、段结构信息和实际载荷信息,即上层的VCL数据。(如果采用数据分割技术,数据可能由几个部分组成)。VCL采用基于块的混合视频编码方法。基本的源编码算法是: 利用时间统计的相关性,开发帧间预测算法; 利用预测残留变换编码,开发空间统计的相关性。在提高编码效率方面,没有一个单一的算法做出特别的贡献,而是大量的小的改善算法综合产生的结
24、果。,H.264/AVC视频编码标准,场和帧的概念 视频的一场或一帧可用来产生一个编码图像。在电视中,为减少大面积闪烁现象,把一帧分成两个隔行的场。原始视频帧根据编码的需要,以不同的方式进行扫描产生两种视频帧:连续或隔行视频帧,隔行视频帧包括顶场和底场,连续(遂行)扫描的视频帧与隔行扫描视频帧有着不同的特性和编码特征,产生了所谓的帧编码和场编码。一般情况下,遂行帧进行帧编码,隔行帧可在帧编码和场编码间选取。在帧编码中,参考为帧图像,采用帧运动补偿,两个场是联合编码;在场编码中,参考为场图像,两个场是分别编码,采用场运动补偿。,H.264/AVC视频编码标准,图像的分割一个图像分成一个或几个像条
25、;像条之间有独立性,一个像条包含若干宏块;宏块是基本的句法和处理单元,同一像条中的宏块之间相互依赖;宏块可以进一步分割,各层次之间的关系如下 :sequence 视频序列层(pictures 图像层(slices像条层 (macroblocks宏块层 (macroblock partitions 像块层(sub-macroblock partitions 副像块层(blocks 小块(samples像块层分子).,H.264/AVC视频编码标准,宏块、片: 一个编码图像通常划分成若干宏块组成,一个宏块由一个1616亮度像素和附加的一个88 Cb和一个88 Cr彩色像素块组成。每个图象中,若干宏
26、块被排列成片的形式。 I片只包含I宏块,P片可包含P和I宏块,而B片可包含B和I宏块。 I宏块利用从当前片中已解码的像素作为参考进行帧内预测。 P宏块利用前面已编码图象作为参考图象进行帧内预测, 一个帧内编码的宏块可进一步作宏块的分割:即1616、168、816或88亮度像素块(以及附带的彩色像素);如果选了88的子宏块,则可再分成各种子宏块的分割,其尺寸为88、84、48或44亮度像素块(以及附带的彩色像素)。 B宏块则利用双向的参考图象(当前和未来的已编码图象帧)进行帧内预测。,H.264/AVC视频编码标准,H.264中的像条类型 I像条:所有宏块不参考视频序列中的其它图像; P像条:部
27、分宏块利用帧间预测,每块至多使用一个运动补偿信号; B像条:部分宏块利用帧间预测,每块可使用两个运动补偿信号; SP像条:能在不同编码图像之间有效地切换; SI像条:在不同位率编码码流之间进行有效切换。,H.264/AVC视频编码标准,档次和级H.264规定了三种档次,每个档次支持一组特定的编码功能,并支持一类特定的应用。1)基本档次(Baseline Profile):利用I片和P片支持帧内和帧间编码,支持利用基于上下文的自适应的变长编码进行的熵编码(CAVLC)。主要用于可视电话、会议电视、无线通信等实时视频通信;该层次使用了H.264的除了B-Slices,CABAC以及交织编码模式外所
28、有的特性。该层次主要使用于低时延的实时应用场合。2)主要档次(Main Profile):支持隔行视频,采用B片的帧间编码和采用加权预测的帧内编码;支持利用基于上下文的自适应的算术编码(CABAC)。主要用于数字广播电视与数字视频存储;包含Baseline profile的所有特性,并包括了B-slices,CABAC以及交织编码模式。它主要针对对时延要求不高,当压缩率和质量要求较高的场合。3)扩展档次(Profile X):支持码流之间有效的切换(SP和SI片)、改进误码性能(数据分割),但不支持隔行视频和CABAC。主要用于网络的视频流,如视频点播,支持所有Baseline profile
29、的特性,但不支持CABAC以及基于宏块的自适应帧场编码。该层次主要针对的时各种网络视频流传输方面的应用。,H.264/AVC视频编码标准,下图为H.264各个档次具有的不同功能,可见扩展档次包括了基本档次的所有功能,而不能包括主要档次的。每一档次设置不同参数(如取样速率、图像尺寸、编码比特率等),得到编解码器性能不同的级。,H.264/AVC视频编码标准,H.264编码器 编码器采用的仍是变换和预测的混合编码法。输入的帧或场Fn以宏块为单位被编码器处理。首先,按帧内或帧间预测编码的方法进行处理。 如果采用帧内预测编码,其预测值PRED(图中用P表示)是由当前片中前面已编码的参考图像经运动补偿(
30、MC)后得出,其中参考图像用Fn-1表示。为了提高预测精度,从而提高压缩比,实际的参考图像可在过去或未来(指显示次序上)已编码解码重建和滤波的帧中进行选择。 预测值PRED和当前块相减后,产生一个残差块Dn,经块变换、量化后产生一组量化后的变换系数X,再经熵编码,与解码所需的一些边信息(如预测模式量化参数、运动矢量等)一起组成一个压缩后的码流。 正如上述,为了提供进一步预测用的参考图像,编码器必须有重建图像的功能。因此必须使残差图像经反量化、反变换后得到的Dn与预测值P相加,得到uFn(未经滤波的帧)。为了去除编码解码环路中产生的噪声,为了提高参考帧的图像质量,从而提高压缩图像性能,设置了一个
31、环路滤波器,滤波后的输出Fn即重建图像可用作参考图像。,H.264/AVC视频编码标准,H.264编码器,H.264/AVC视频编码标准,H.264解码器 由上图可知,由编码器的NAL输出一个压缩后的H.264压缩比特流。下图经熵解码得到量化后的一组变换系数X,再经反量化、反变换,得到残差Dn。利用从该比特流中解码出的头信息,解码器就产生一个预测块PRED,它和编码器中的原始PRED是相同的。当该解码器产生的PRED与残差Dn相加后,就产生uFu,再经滤波后,最后就得到滤波后的Fn,这个Fn就是最后的解码输出图像。,H.264解码器,H.264/AVC视频编码标准,帧内预测 利用相邻宏块的空间
32、相关性,在对一给定宏块编码时,首先可以根据周围的宏块预测,然后对预测值与实际值的差值进行编码。在帧内预测模式中,预测块是基于已编码重建块和当前块形成的。对亮度块而言,用于 44 子块或者1616 宏块的相关操作。 44 亮度子块有 9 种可选预测模式,独立预测每一个 44 亮度 子块,适用于带有大量细节的图像编码; 1616 亮度块有 4 种预测模式,预测整个 1616 亮度 块,适用于平坦区域图像编码; 色度块也有 4 种预测模式,类似于 1616 亮度块预测模式。编码 器通常选择使P 块和编码块之间差异最小的预测模式。 此外,还有一种帧内编码模式称为I_PCM 编码模式。,H.264/AV
33、C视频编码标准,H.264宏块划分模式,H.264/AVC视频编码标准,如图所示,44 亮度块的上方和左方像素 AQ 为已编码和重构像素,用作编解码器中的 预测参考像素。ap 为待预测像素,利用AQ 值和 9 种模式实现。其中模式2(DC 预测)根据A Q 中已编码像素预测,而其余模式只有在所需预测像素全部提供才能使用。图中箭头表明了每种 模式预测方向。对模式38,预测像素由AQ 加权平均而得。,H.264/AVC视频编码标准,16 16预测模式SAE( Sum of Absolute Error,绝对误差和)值最小的模式作为最佳预测模式,并将该模式信息化,同时传送至解码端,以供正确解码。,H
34、.264/AVC视频编码标准,帧内预测模式选择每个宏块亮度信号都要完成9种4x4预测模式和4种16x16预测模式,然后通过预测模式选择,得出一种最佳预测模式使得编码后的图像在码流和图像质量两者权衡后的获得一个最佳。 H.264中模式选择方法有两种: 1、使用率失真优化(RDO)模式选择通过精确的计算,使得其模式选择的准确度大大提高,从而使得其运 算复杂度很高 2、基于SAD和速率估计的模式选择方法对码速率估计,避免了复杂的计算,所以速度大大提高,但选择的准确度也会下降。使用RDO模式选择的方法与使用基于SAD的模式选择方法相比,基于SAD的模式选择计算复杂度平均为RDO模式选择的7%,但与使用
35、RDO模式选择相比基于SAD的模式选择方法PSNR平均降低。,H.264/AVC视频编码标准,帧间预测 帧间预测编码利用连续帧中的时间冗余来进行运动估计和补偿。帧间预测编码编码效率比帧内更高。 单向预测:利用上一帧的图像经运动矢量位移作为预测值的方法以块为单位的预测(基于块匹配的运动矢量估计) 双向预测:前向参考帧预测当前帧称为前向运动补偿,利用后向参考帧预测当前帧称为后向运动补偿,利用前后向同时预测的就称为双向预测运动补偿 重叠块运动补偿:采用 OBMC 时,一个像素的预测不仅基于它所属的MV 估计,还基于其相邻的MV估计。,H.264/AVC视频编码标准,运动估计多模式的灵活和细致的划分,
36、更切合图像中实际运动物体的形状,大大提高了运动估计的精确程度。 在这种方式下,在每个宏块中可以包含有1、2、4、8或16个运动矢量。对大的分割尺寸而言,MV选择和分割类型只需少量的比特,但运动补偿残差在多细节区域能量将非常高。小尺寸分割运动补偿残差能量低,但需要较多的比特表征 MV 和分割 选择。分割尺寸的选择影响了压缩性能。整体而言,大的分割尺寸适合平坦区域,而小尺寸适合多 细节区域。,举例:一宏块用B_Bi_1616模式预测。图A和图B分别给出了基于list0和list1参考图像的运动补偿参考区域。图C给出了根据者两个参考区域的双向预测。,H.264/AVC视频编码标准,A 参考区域(li
37、st0) B 参考区域(list1) C 双向预测(无加权),H.264/AVC视频编码标准,H.264的运动估计特性: (1)不同大小和形状的宏块分割对每一个1616像素宏块的运动补偿可以采用不同的大小和形状。小块模式的运动补偿为运动详细信息的处理提高了性能,减少了方块效应,提高了图像的质量。 (2)高精度的亚像素运动补偿采用1/4或者1/8像素精度的运动估值。在要求相同精度的情况下,H.264使用1/4或者1/8像素精度的运动估计后的残差要比H.263采用半像素精度运动估计后的残差来得小,H.264在帧间编码中所需的码率更小。 (3)多帧预测H.264提供可选的多帧预测功能,在帧间编码时,
38、可选不同的参考帧,提供了更好的纠错性能,这样更可以改善视频图像质量。,H.264/AVC视频编码标准,整数变换基于44像素块的类似于DCT的变换,以整数为基础的空间变换。整数DCT变换减少运算量和复杂度。对残差采用基于块的变换编码,但变换是整数操作而不是实数运算,优点在于:在编码器中和解码器中允许精度相同的变换和反变换,便于使用简单的定点运算方式,没有反变换误差。变换的单位是44块,而不是以往常用的88块。为了使小尺寸块的变换方式对图像中较大面积的平滑区域不产生块之间的灰度差异,可对帧内宏块亮度数据的16个44块的DC系数(每个小块一个,共16个)进行第二次44块的变换,对色度数据的4个44块
39、的DC系数(每个小块一个,共4个)进行22块的变换。,H.264/AVC视频编码标准,量化H.264中可选32种不同的量化步长,步长是以12.5%的复合率递进的,而不是一个固定常数。提高码率控制的能力,变换系数幅度的归一化被放在反量化过程中处理以减少计算的复杂性。为了强调彩色的逼真性,对色度系数采用了较小量化步长。在H.264中,变换系数的读出方式也有两种:之字形(Zigzag)扫描和双扫描,大多数情况下使用简单的之字形扫描;双扫描仅用于使用较小量化级的块内,有助于提高编码效率。,H.264/AVC视频编码标准,熵编码 在H.264中采用了的熵编码方法:通用可变长编码(UVLC) B.内容自适
40、应变长编码(CAVLC) C.内容基于上下文的自适应二进制算术编码(CABAC)UVLC码表提供了一个简单的方法,不管符号表述什么类型的数据,都使用统一变字长编码表。其优点是简单;缺点是单一的码表是从概率统计分布模型得出的,没有考虑编码符号间的相关性,在中高码率时效果不是很好。CAVLC(基于上下文自适应的可变长编码)中,通过根据已编码句法元素的情况动态调整编码中使用的码表,取得了极高的压缩比。CAVLC 用于亮度和色度残差数据的编码。利用相邻已编码符号所提供的相关性,为所要编码的符号选择合适的上下文模型。利用合适的上下文模型,就可以大大降低符号间的冗余度。CABAC算术编码使编码和解码两边都
41、能使用所有句法元素(变换系数、运动矢量)的概率模型。为了提高算术编码的效率,通过内容建模的过程,使基本概率模型能适应随视频帧而改变的统计特性。内容建模提供了编码符号的条件概率估计,利用合适的内容模型,存在于符号间的相关性可以通过选择目前要编码符号邻近的已编码符号的相应概率模型来去除,不同的句法元素通常保持不同的模型。与CAVLC相比,CABAC有更高的压缩效果,同时其编码和解码的复杂度也更高。,H.264/AVC视频编码标准,解码四个最主要步骤,分别是流处理,逆变换,动态补偿,去方块滤波,这四步也是资源消耗的主要四个部分。 去方块滤波H.264使用基于块的预测和编码,导致在解码后的图像块的边缘
42、出现块效应,所以在解码时定义自适应去除块效应的滤波器,这可以处理预测环路中的水平和垂直块边缘,大大减少了方块效应。 H.264的错误恢复工具旧的标准(H.261、H263、MPEG-2的第二部分)中,使用片和宏块组的划分、帧内编码宏 块、帧内编码片和帧内编码图像来防止错误的扩散。之后改进的标准(H.263+、MPEG-4)中,使用多帧参考和数据分割技术来恢复错误。H.264标准在以前的基础上提出了三种关键技术来进行错误的恢复: (1)参数集合 (2) 灵活的宏块次序(FMO) (3)冗余片(RS),H.264/AVC视频编码标准,1.利用帧内编码提高恢复能力H.264中的帧内预测编码宏块的参考
43、宏块可以是帧间编码宏块,帧内预测宏块并不像H.263中的帧内编码一样,而采用预测的帧内编码比非预测的帧 内编码有更好的编码效率,但减少了帧内编码的重同步性能,可以通过设置限制帧内预测标记来恢复这一性能。 只包含帧内宏块的片有两种,一种是帧内片(Islice),一种是立即刷新片(IDRslice),立即刷新片必存在于立即刷新图像 (IDRpicture)中。与短期参考图像相比,立即刷新图像有更强壮的重同步性能。,H.264/AVC视频编码标准,2.图像分割 H.264支持一幅图像划分成像条,像条中宏块的数目是任意的。 灵活的像条大小 灵活的宏块排序 任意像条排序 3.参考图像选择参考图像数据选择
44、,不论是基于宏块、基于片,还是基于帧,都是错误恢复的有效工具。对于有反馈的系统,编码器获得传输中丢失图像区域的信息后,参考图像可 以选择解码已经正确接收的图像对应的原图像区域作参考。在没有反馈的系统中,将会使用冗余的编码来增加错误恢复性能。,H.264/AVC视频编码标准,4. 数据的划分 在H.264中有三种不同的数据划分。 a.头信息划分:包含片中宏块的类型,量化参数和运动矢量,是片中最重要的信息。 b.帧内信息划分:包含帧内和帧内系数,帧内信息可以阻止错误的蔓延。 c.帧间信息划分:包含帧间和帧间系数,通常比前两个划分要大得多。帧内信息划分结合头信息解出帧内宏块,帧间信息划分结合头信息解
45、出帧间宏块。帧间信息划分的重要性最低,对重同步没有贡献。解码端若获得所有的划分,就可以完整重构片;解码端若发现帧内信息或帧间信息划分丢失,可用的头信息仍然有很好的错误恢复性能。这是因为宏块类型和宏块的运动矢量含有宏块的基本特征。,H.264/AVC视频编码标准,5. 参数集的使用 序列的参数集(SPS)包括了一个图像序列的所有信息 图像的参数集(PPS)包括了一个图像所有片的信息。对序列的参数和图像的参数进行重点保护才能很 好地增强H.264错误恢复性能。在实时信道中,保证参数集及时、可靠地到达解码端的方法: a.编码器用可靠控制协议及早将他们以带外传输的方式 发送,使控制协议能够在引用新参数
46、的第一个片到达之前把它们发给解码器; b.使用应用层保护,重发多个备份文件,确保至少有一个备份数据到达解码端; c.在编解码器的硬件中固化参数集设置。,H.264/AVC视频编码标准,6.灵活的宏块次序(FMO)灵活的宏块次序是H.264的一大特色,通过设置宏块次序映射表(MBAmap)来任意地指配宏块到不同的片组,FMO模式打乱了原宏块顺序,降低了编码 效率,增加了时延,但增强了抗误码性能。FMO模式划分图像的模式各种各样,重要的有棋盘模式、矩形模式等。当然FMO模式也可以使一帧中的宏块顺序分 割,使得分割后的片的大小小于无线网络的MTU尺寸。经过FMO模式分割后的图像数据分开进行传输。 7
47、. 冗余片方法在不能使用参考帧选择的方法来进行错误恢复时,应该在编码时增加冗余的片来增强抗误码性能。冗余片的编码参 数与非冗余片的编码参数不同,也就是用一个模糊的冗余片附加在一个清晰的片之后。在解码时先解清晰的片,如果其可用就丢弃冗余片;否则使用冗余模糊片来重 构图像。,H.264/AVC视频编码标准,H.264优势 1低码流(Low Bit Rate):和MPEG2和MPEG4 ASP等压缩技术相比,在同等图像质量下,采用H.264技术压缩后的数据量只有MPEG2的1/8,MPEG4的1/3,大大节省用户的下载时间和数据流量收费。2高质量的图象:H.264能提供连续、流畅的高质量图象(DVD
48、质量)。3容错能力强:H.264提供了解决在不稳定网络环境下容易发生的丢包等错误的必要工具。4网络适应性强:H.264提供了网络抽取层(Network Abstraction Layer), 使得H.264的文件能容易地在不同网络上传输(例如互联网,CDMA,GPRS,WCDMA,CDMA2000等)。,目录,四、AVS视频编码标准,AVS视频编码标准,背景我国在音视频产业领域已经具备较强的基础,但相关企业长期受制于国外标准,专利与技术的企业合组织。使用MPEG-2每台设备需要交2.5美元的专利使用费。MPEG-2 是1993 年制定的,近10年的技术进步已经使MPEG-2技术越来越落后。我国
49、积极参与了新国际标准的制定,并做出了一定的技术贡献,但是,新的标准仍有一个收费问题。AVS:数字音视频编解码技术标准工作组于2002年经信息产业部科技司批准成立同时也是MPEG-China (ISO/IEC JTC1SC29/WG11中国代表团)工作范围:面向我国的信息产业需求,联合国内企业和科研机构,制(修)订数字音视频的压缩、解压缩、处理和表示等共性技术标准,为数字音视频设备与系统提供高效经济的编解码技术,服务于高分辨率数字广播、高密度激光数字存储媒体、无线宽带多媒体通讯、互联网宽带流媒体等重大信息产业应用。,AVS视频编码标准,AVS 是基于我国创新技术和部分公开技术的自主标准,AVS
50、标准包括系统、视频、音频、数字版权管理等四个主要技术标准和一致性测试等支撑标准。2002 年,在信息产业部支持下,成立了“数字音视频编解码技术标准”工作组(简称 AVS 工作组),2003 年,国家发展和改革委员会批准了数字音视频编解码技术标准 AVS 研究开发与测试验证重大专项。在国内外上百家企业和科研单位共同参与下,AVS 标准制定工作进展顺利,其中最重要的视频编码标准于 2005 年通过国家广电总局测试,2006 年 1 月得到信息产业部批准,2 月国家标准化管理委员会正式颁布,3 月 1 日起实施。AVS 视频编解码的核心技术包括:8x8 整数变换、量化、帧内预测、1/4 精度像素插值、特殊的帧间预测运动补偿、二维熵编码等。,