1、3 视频压缩国际标准,3.2 H.26 x 标准,3.2.1 H.261标准 一.概述,1、1990年12月CCITT(国际电报电话咨询委员会)(后改为IUT-国际电信联盟)通过。 2、为P 64kb/s视听业务的视频编码器P=1,230,又称P 64标准3、应用H261为N-ISDN上开展可视通信业务而提出。 可视电话,会议电视。,二、图像格式1、CIF和QCIF格式CIF Common Intermediate Format,通用中间格式QCIF Quarter CIF,2、主要参数,Y:亮度信号 Cr:红色差信号 Cb:兰色差信号 由上表可见,QCIF是取CIF纵横像素的各一半。,3、Y
2、、C样点位置,4、帧结构(1)一帧CIF由12个组块(GOB-GROUP OF BLOCK)组成,(QCIF由3个组块组成) A. 图 CIF,QCIF,BGOB编号:从左到右,从上到下,(2)每个块组(GOB)由33个宏块(MB- MACROBLOCK)组成A . 图,BMB编号:从左到右,到上到下,CMB是运动补偿的基本单元,(3)每个宏块(MB)由6块(B-BLOCK)组成。(其中:4个Y块和2个色差块一个Cb,一个Cr组成)A图BB编号如图所示CB是DCT的基本单元,即基本编码单元D每块(B)由8 8像素组成,像素编号:从左到右,从上到下。4个Y块和Cb,Cr对应图面上的同一区域。,三
3、、数据结构 1、分四层图象层:P Layer (picture layer)块组层:GOB Layer宏块层:MB Layer块 层: B Layer,P图像标题(帧头)主要内容:(1)帧开始码,(2)帧计数码,(3)帧类型码,如CIF或QCIF等,(4)备用插入信息码GOB标题主要内容:(1)块组开始,(2)块组编号,(3)块组量化步长,(4)备份信息码,MB标题主要内容:(1)地址码,(2)类型码(帧内,帧间,运动补偿,滤波器用否,等),(3)量化步长,(4)运动矢量,四、源编码器1. 方框图,q:量化变换系数 qZ:量化步长指示 P:帧内/帧间指示 v:运动矢量 F:环路滤波开关指示 t
4、:宏块图像发送与否指示,(1)混合编码方式:以运动补偿帧间预测和分块DCT为 基础的混合编码算法。A帧内,帧间模式a、帧内模式:k1,k2上位置 对原图像进行DCT Q 熵编码。 b、帧间模式:k1,k2下位置 (运动补偿预测编码),对帧间预测误差上进行 DCT Q 熵编码 B 量化:对DCT变换系数进行量化 。 压缩 C 熵编码:游程编码(RLC),变长编码(VLC),对符号冗余度进行无损压缩编码。(2)传输缓冲器协调编码器输出和传输网络位率,充分利用网络传输位率,对于恒定输出码率:,( 3)编码器控制器A根据缓冲器来的信息控制量化步长B控制编码模式(帧内,帧间)C宏块传送与否。 (4) 熵
5、编码器除了对量化后的DCT系数编码外,还要把许多附加信息组织到(复用)数据流中去,这些信息包括:A帧内/帧间编码标志(P)B宏块发送与否标志(t)C使用量化表(q)D运动矢量(v)E环路滤波器用与否(f)这里熵编码也被称为:多路编码器,复用编码器。,2、帧内、帧间编码判断方法:以MB为单位,比较前后两帧图像的相关性,通常相关性小采用帧内,相关性强采用帧间模式。下面给出一种帧内、帧间编码判断方法。 设P(x,y)为前帧MB像素值,C(x,y)为当前帧MB像素值。前帧MB亮度信号方差VAROR为:前后帧像素差方值,VAR,1)当VAR64,或VAR64且VARORVAR时,用帧间;2)当VAR64
6、,且VARVAROR时,用帧内。该判据可用下图表示:值得说明的是H。261标准,没有包括上述判定方法,因此可以使用其它判定方法。,.,3、量化:1 ) 采用均匀量化2 ) 直流系数量化步长固定为83 ) 其它系数,不同MB可用不同步长,但每个MB步长相同。,4 熵编码由行程编码和Huffman编码二部分组成。(1)行程编码 A、对88量化系数(块)采用Z字形扫描处理,得到一维量化系数序列。 使低频系数数据排在高频系数之 前,增加连零的个数,以利于熵编码。如图所示:,B将一维量化系数序列变成若干对数据(行程/幅值)行程:指连零的个数; 幅值:连零后的非零系数数 值。 例子:设块量化系数入图所示。
7、,A. 0 5 3 0 3 1 0 0 1 0B(1/5),(0/3),(2/-1),(56/1) (2)对(行程/幅值)进行Huffman编码,6、附加信息的复用规定从前H.261方框图(源编码器中)可知,编码数据流中除了块数据外,与原始图像的帧,块组和宏块相对应,还需传帧,块组和宏块的结构信息以及宏块量化编码的有关其它信息,例如量化表地址、运动矢量等附加信息,现介绍附加信息的复用规定:(1)图像层(picture layer)APSC图像启动码 20bit 其值为:0000 0000 0000 0001 0000,BTR时间参考5bit,表示帧号,形成方法是将前面的图像头的值增1,再加上自
8、最近一次发送后未发送的图像数目。(即在抽帧情况下,在计算帧号时应计入未编码传送的数目) CPTYPE形成信息,6bit Bit1,分裂屏幕指示,“0”非“1”是Bit2,文件摄像机指示Bit3 凝固图像释放指示 Bit4 图像格式指示,“0”为QCIF,“1”为CIF Bit5,6 备用DPEI附加插入信息指示:当PEI=1时,其后跟9bit,其中前8bit是PARE(即图像层附加信息),1bit为另一个PEI,若它仍为为1,则后面再接着传送个一个8bit附加信息,直至PEI=0,后面没有PSPARE为止。 EPSPARE附加信息,8bit。,(2)块组层(GOB Layer)A. 块组启动码
9、GBSC 16bit,码字为0000 0000 0000 0001B. 组号GN4bit,表示块组的号码(112),C. 量化器信息QUANTD5bit,表示131各量化系数中的某一个量化系数。它在任何后续的QUANTD取代前都指示宏块组所使用的量化器。D. 附加插如信息指示GEI,及附加信息GSAPRE,与图像层PEI和PAPARE相似,只是这些附加信息嵌在块码流中。,(3)宏块(MB Layer) 宏块的数目较多,为了节省码字,基本上采用可变长编码(VLC)A宏块地址MBA MBA总是含在发送宏块中,若某些宏块所在的图像部分没有信息,则该宏块将不发送。 B形成信息MTYPE可变长码字该宏块
10、的有关信息。 C量化器MQUANa)仅当MTYPE指出MQUANT存在时才有MQUANTb)5bit,MQUANT码字与GQUANT相同D码块图案CBP 用以说明当前MB哪几块编码传送。,(4)块层(B Layer)由变换系数(TCOFEE)和跟随其后的块终止标号(EOB)组成。7、BCH编码:(1)BCH(n,k),循环冗余校验码n=511 码长k=493 信息码元长n-k=18 校验码元长,(2)纠错帧安排A帧群;8帧组成一帧群(a)一帧:帧首 数据 校验码1 493 18(b)帧首:每个帧首仅一位,用于同步,八个帧首为S1到S8,各帧首码位规定为:(S1S2S8=00011011),B数
11、据结构:(a)FiL:1位,称为填满指示FiL=1,表明其后有492位数据FiL=0,表明后面无数据,此时492位全取1。(b)492位有效数据(3)BCH码纠错能力BCH码的码长n,信息码元k和纠错个数t之间的关系n-kmt n=2m-1式中,m为大于3的整数,能纠正所有不大于t个随机错误。现在:n=511=29-1 m=9n-k=189t t=2 即可纠正2位误错。每帧的511位到达解码器后,解出信息码元493,当发现2位或2位以下的错误,可以自动纠正。,3.2.3 H.263标准H.263标准制定于1995年,是ITU-T针对64kbit/s以下的低比特速率视频应用而制定的标准。它的基本
12、算法与H.261基本相同,但进行了许多改进,使得H.263标准获得了更好的编码性质。改进主要包括支持更多的图像格式、更有效的运动预测、效率更高的三维可变长编码代替二维可变长编码以及增加了4个可选模式。,1、支持的图像格式和数据组织1)支持5种数据格式,2)所有的解码器必须支持Sub-QCIF和QCIF格式,所有的编码器必须支持Sub-QCIF和QCIF格式中的一种,是否支持其他格式由用户决定 。3)与H.261相同,H.263仍然采用图像层P、块组层GOB、宏块层MB和块层B四个层次的数据结构 。,4)H.263的编码器框图 H.263编码器中没有环路滤波器。这是因为H.263采取了更为有效的
13、半像素精度运动矢量预测,环路滤波器作用已经不明显。,2、运动预测1)半像素精度运动矢量预测所谓半像素预测,就是在整像素精度预测后再执行半像素精度预测。即首在搜索窗中以整像素精度进行块全匹配搜索,获得最佳匹配块后,再以半像素的精度在最佳匹配块1像素的范围内执行搜索。,进行半像素精度运动预测需要获得半像素位置的幅度值,H.263通过线性插值获得 。如图316所示。,2)运动矢量预测编码 对运动矢量采用预测编码。预测编码采用与当前宏块相邻的三个宏块的运动矢量的均值作为预测值,如图3.17所示。当相邻宏块不在当前块组时,按照下列规则处理:如果只有一个相邻宏块在块组外,则令该宏块运动矢量为零计算预测值;
14、如果有两个宏块在块组外,则直接取剩下的宏块的运动矢量作为预测值。,MV:当前宏运动矢量 MV1,MV2,MV3:用来预测的相邻宏块运动矢量 :GOB边界,3、四种可选模式无限制运动矢量模式、基于语法的算术编码模式、先进预测模式和PB图像模式。 1)无限制运动矢量模式在此种模式下,运动矢量可以指向图像以外的区域,这种模式可以改善边缘宏块的预测效果,尤其适合较小的图像格式(比如 QCIF)。采用这种模式时。指向图像外部的参考像素用最近的边缘像素替代。如图3.18所示。,PA有一部分位于预测帧之外,将该部分分为1,2,4三个小部分。1中的像素点的像素值由预测帧上边缘的相应像素点的像素值代替。2中的像
15、素点的像素值由预测帧右上角的相应像素点的像素值代替。4中的像素点的像素值由预测帧右边缘的相应像素点的像素值代替。,2)基于语法的算术编码模式在相同图像质量下,基于语法的算术编码模式可以把比特率降低5%左右 3)先进预测模式先进预测模式包含两方面的内容,一方面,在编码端它允许将一个宏块分成四个块分别进行运动估计和补偿,使估计更为精确;另一方面,在解码端它还允许采用重叠块的运动补偿方法(OBMC),这样可以明显地消除由块编码所带来的方块效应,在先进预测模式中,既可以对一个宏块使用一个运动矢量,也可以对宏块的每个亮度块各使用一个运动矢量。当一个宏块使用4个运动矢量时,色度块的运动矢量是4个亮度块运动
16、矢量和的1/8。哪些宏块采用4个运动矢量取决于编码器。 对运动矢量仍采用预测编码,取三个预测矢量的均值作为预测值。不过预测矢量MV1、MV2、MV3的位置有所变化,如图319所示,其中,粗线代表宏块边界。,预测矢量MV1、MV2、MV3的位置有所变化,如图319所示,其中,粗线代表宏块边界。,采用OBMC时,解码端的亮度预测值是由三个运动矢量计算得到的三个预测值的加权和 。 这三个运动矢量是:当前宏块的运动矢量、最靠近当前像素的两个宏块(上下取一个,左右取一个)的运动矢量。如果一个宏块采用四个运动矢量,这三个运动矢量是:当前块的运动矢量、最靠近当前像素的运动矢量。色度预测值不采用OBMC技术
17、。,下面举例说明OBMC技术。设最靠近预测样点的两个块分别位于当前块的上方和左方,它们的运动矢量分别是(x1,y1)、(x2,y2),它们确定的样点亮度预测值分别为s1,s2;设当前块的运动矢量为(x0,y0),它确定的样点亮度预测值为s0,则待预测样点亮度的预测值为 :式中:(i,j)为当前样点的坐标;H0、H1、H2分别是加权矩阵,4)PB图像模式 PB帧,一个PB帧由一个P帧和一个B帧组成,一起编码。 其中P帧即在缺省模式中采用帧间编码的帧,P帧由前面已经编码的P帧或者I帧来预测。 而B帧在时间上处于前一P帧(或者I帧)和当前P帧之间,由二者进行双向预测,这种关系如图321所示。,B帧的
18、前项运动矢量MVF和后向运动矢量MVB由下式获得 。MV为当前P帧的运动矢量,TR0为前P帧与前一P帧的时间间隔,TRB为B帧与前一P帧的时间间隔,MVD为矢量修正值,1995年制定H.263标准后,ITU-T于1998年和2000年相继通过了H.263的第二版和第三版,称为H.263+和H.263+。在这两个版本中,一共添加了15个新的可选模式,并修改了一个H.263的已有模式,有效的提高了编码效果。,3.3 JPEG标准,3.3.1 JPEG 一. 概述1、JPEG Joint Photographic Experts Group 联合图 片专家组的缩写2、时间:1988年提出标准草案,1
19、990年3月通过,并命名为JPEG。1992年正式成立国际标准3、应用:连续色调静止图像压缩(只要处理速度足够 快,也可以用于实时视频压缩)JPEG应用面广,可以适应各种不同的应用场合,采用JPEG算法对全活动视频图像进行压缩编码的另一种方法,是运动JPEG(Motion JPEG) ,简称M-JPEG,它是通过对JPEG标准进行扩展来支持活动图像的压缩。M-JPEG首先通过对相邻帧图像进行简单的帧间预测得到预测误差,然后利用JPEG算法对预测误差进行编码 。,4、四种运行模式:(1)基于DCT的顺序工作模式(2)基于DCT的渐进工作模式(3)无失真编码工作模式(4)多分辨工作模式5、二种编码
20、方法(1)Huffman码(2)算术编码6、三种工作系统(1)基本系统(2)扩展系统(3)信息保持系统是不同编码方法和工作模式的不同组合。JPEG编解码器必须支持基本系统,其他系统作为选择项,根据不同应用目的进行取舍。,二. 基本系统简介1、编、解码方框图基本压缩编码方法与H.261帧内模式类似。,2、DCT系数量化(1)均匀量化(2)不同位置采用不同的量化步长利用人眼视觉特性进行量 化是JPEG标准的一个特点(例如:附表2,表3)分亮度量化表(表2)和色度量化表(表3)其量化计算公式:F(U,V)为DCT系数;S(U,V)量化步长,Q(U,V)量化系数3、熵编码:(1)对直流系数采用DPCM
21、编码A直流系数DC:Q(0,0)为直流系数,用DC表示,如图3.2-1。代表本块的平均亮度。,BDPCM:(对相邻子块直流系数进行DPCM编码D= DCi - DC i-1DCi :当前块图像的直流系数DC i-1:为前一块图像的直流系数(2)对交流系数进行行程编码:A交流系数ACij除直流系数外的63个系数为交流系数,用ACij表示。B交流系数进行行程编码,(3)编码过程(与H.261类似)A对经Z形扫描形成的一维AC系数序列构成若干符号对(中间符号序列);对直流差分数构成符号对;符号对由符 号1和符号2组成。符号1 符号2(行程,位长) (振幅)行程:连续0的个数 非零系数大小(DC:差分
22、值,AC:非0系数)位长:后续AC(非0)系数的编码位长,B 对上述符号对进行变长编码(Huffman编码),通过查相应编码表得到。 (a)由符号1查编码表得一编码对直流系数符号查直流差分表。 对交流系数查交流系数表。 (b)由符号2查表得一编码,查正负值幅度 表得(补:表10) (c)由符号1和符号2查得编码,组成该符号对的码子。,(4)例子设某一亮度子图像DCT系数量化后的系数如图3.2-2所示,求该子图像JPEG编码后的数据,(设前一个子图像的DC系数量化值为12)解:a) 经Z形扫描得一维系数序列, (15 0 2 -1 1 1 0 0 1 EOB)b) 符号对:对于DC系数,其D=
23、DCi - DC i-1 =15-12=3,3.3 MPEG标准,一、概述,1、MPEG:是Moving Picture Experts Group(活动图像专家组1988年ISO设立)的缩写。(其任务是研究视频,音频压缩)为制定动态图像压缩标准而设立的专家组。 2、主要三种标准(1)MPGE-1A1992年通过B以压缩码速率为0.9-1.5Mb/s的视频信号为目标。D应用:数字存储媒体,(2)MPEG-2A1994.11通过B为MPEG-1标准的扩展C支持2-100Mb/s速率的数字视频D应用:高品质广播电视,DVD,DVB,CATV,HDTV等。 (3)MPEG-4A1998.11通过B位
24、率64Kb/s,超低码率视频压缩标准。C主要应用:移动多媒体通信,3、主要由三部分组成:(1) MPEG视频(2)MPEG音频(3)MPEG系统:信号格式,压缩视频、音频数据流的复合和同步。 4、MPEG视频压缩算法,必须具备与存储相适应的性质:(1)能够随机访问(2)快进/快退检索,倒放(3)音像同步(4)可编辑性(5)灵活的视频格式,3.3.1 MPEG-1,MPEG-1采用SIF视频格式,SIF(Source Input Format)称为源输入格式,也称作标准交换格式(Standard Interchange Format),有35228825和35224030两种选择。 1、视频码流
25、结构 公分6个层次 (1)图像序列层(seguence) 指整个一个被处理的连续图像(MPEG-1:逐行扫描。)由序列头,一个或若干图像组和序列结束标志组成 序列头给出图像尺寸,帧率码率,帧组数等信息,比特率、缓冲器容量大小等解码器所需信息。插入附加序列头有助于实现随机访问和编辑,(2)图像组层(GOPGroup of Picture)由图像组头和一系列图像帧组成。第一帧必须是I帧。 头给出组内帧数,帧的顺序,等信息时间、图像组终止码、编辑断点连接码等参数。图像组进行随机存取单元,(3)图像层(picture)是图像组的基本单元,为独立的显示单元亮度和色度之间的格式 : 4:1:1由头和片层数
26、据组成头给出帧(图像)类型(I.P.B),帧编号,帧内片数等。,(4)片层( Slice)目的,防止错误扩散片层最大相当于每幅图像的宏块总数,最小时只有一个唯一的宏块。 同一片内宏块的次序从左到右,从上到下。是进行再同步的单元,在每条开始,对运动矢量和DCT系数值作DPCM的预测值,都重新置到零,这可防止解码时的错误积累。头给出同步,片编号,片内宏块数等信息。,(5)宏块层(MB)由4个88像素组成的Y块和两个88像素组成的色度块组成。是进行运动补偿的基本单元。 (6)块层(B)88像素组成,为最小图像处理单元,进行DCT的单元。数据结构图:,2、三种编码图像帧 (1)I帧(Intro Cod
27、ed Frame,内帧)类似于H.261的帧内编码模式。A对像素块进行二维DCT(类似JPEG)B作为其它图像帧编码的参考帧C作为随机存取点D压缩比不高,但没有误码扩散。(8倍左右) (2)P帧(Predictively Coded Frame,预测帧)类似于H.261的帧间模 式。A利用前面的I 帧或P帧进行预测编码,(即对预测误差进行编码传 送。)B是预测B帧或下一个P帧的参考帧C压缩比较I帧高,但误码会扩散。(30倍左右),(3)B帧(Bidirectiondly Predictively Coded Frame,双方预测帧IBBPBBPAB帧插在I-P或P-P帧之间。,B同时利用前面和
28、后面(P帧或I帧)图像进行预测。C不作为参考帧D与H.261相比,是MPEG的特点,提高了压缩比,改善了图像质量。(50倍左右),(3)I、B帧数目A、I帧使用频率和在视频流的位置的选择,是根据满足图像序列中随机 存取和景物切换的需要而定。典型每秒钟2次,即在15帧中案排1次。B、B帧在I、P帧间安排的数目,基于编码器中存储器的数量和正在编码图像的性质等a) B帧数 压缩比 图像质量 实时性 b)典型数:插入2个B帧。,3、编码器 (1)方框图 。其中 V:运动矢量 q:量化系数 I:帧内/帧间指示 p:图像类型,与H.261相似主要不同之处: A两个帧存储器 B帧重排输入:IBBPBBP输出
29、:IPBBPBB B帧编码需要两个参考帧。 C有三个控制开关。,(2)I帧编码(A)S1,S2,S3,开关处于I位置。(B),(C)要求精量化帧内编码块的信号频率范围较宽,则应采用细粗量化器进行精确编 码,否则,对于哪些光滑的块,很小的误差都会产生可观察的块边界(即块效应)采用多种专用量化表,按图像内容分类制定量化表:a)0.5系数保留b)按宏块图像反差调整量化表: 宏块反差:,c) 按输出码率高低,调整量化表。,(3)P帧编码(A)S1,S2,S3开关处于P位置(B)找出运动矢量:以I帧(或P帧)图像作为参考(C)运动补偿预测(D)计算预测误差(E)对预测误差编码,(F)用粗量化。由于预测误
30、差主要是高频信号,可采用粗粒度量化器。,(4)B帧编码帧重排后,输出帧序为IPBBPB,对B帧编码时,前面的I,P帧(或P,P帧)已存入编码器图中的I,P帧存储器。AS1,S2,S3开关处于B位置。B找出运动矢量(以I,P为参考帧)C运动补偿预测D计算预测误差E预测误差编码:,由于S3断开,,输出,不存入存储器,不作为参考帧。,F粗量化,4、解码器(1) 方框图,(2) I帧解码,(3.)P帧解码,(4). B帧解码,3.3.2 MPEG-2标准1、概述 (1)向下兼容MPEG-1和H.261标准。(由MPEG-1发展而来) (2)作为通用标准,适用于更广泛的应用场合,能满足广播、通信、计算机
31、到家庭电子产品。,(3)与MPEG-1相比,在视频方面进行的扩展和改进主要包括:(A) 扩大了重要的参数值,允许更大的画面格式,比特率和运动矢量长度。 (B)考虑到电视信号隔行扫描特性,专门设置了“按帧编码”和“按场编码”两种模式,(对帧/场运动补偿、帧/场DCT进行选择)成为改进图像质量的关键措施之一。 (C)定义了档次和级别的概念,作为其完整句法流的一个子集,使用户根据不同的应用情况进行选择。 (D)引入了可伸缩(可分级)视频编码方式。,可伸缩的(SCABLE)视频编码是指编码所产生的码流具有以下特性:对码流的一部分进行解码和对码流的全部进行解码能够获得不同质量的重建图像。对部分解码所获得
32、的图像比对全部码流解码获得的图像分辨率(或帧率、或信噪比等)要低。有:空间可伸缩,时间可伸缩,信噪比可伸缩和数据分割(Data partitioning)四种。,2 、类(档次,配置)/级(等级、级别)结构(profile/level)“类”是集成后的完整码流的一个子集,而每个类的“级”是对编码参数的进一步限制(图像参数格式,采样高等)。类/级是通过确定码流中相应标题信息和附加信息中的有关参数来给定。,1)五个类(porfile) A)无B帧的简单类(Simple Profile) B)允许B帧的主类(Main Profile) C)在主类基础上加上SNR分级的SNR可分级类(SNR Scal
33、able Profile) D)在C基础上空域可分级类(Spatialy Scalable Profile) E)在D基础上加上时间域可分级的高类(High Scalable Profile),2) 四级,A) MPEG-1格式的低级(Low Level)(352*288*30)B) 标准清晰度电视的主级(Main Level)(72048030,72057625)C) 每行1440取样的HDTV的高级(High-1440 Level)(1440108030,1440115225)D) 每行1920取样的HDTV的高级(High Level)(1920108030,1920115225),实际
34、应用中,有些组合不大可能出现,因而未予规定。如High Profile ,Low Level就不会出现。其中,SPML ,MPML, MPHL和MPH1440被认为是最重要的技术规范。MPML,是最早有集成电路的解码器,应用于多种场合,图像质量超过现有电视信号,美国150个卫星直播采用,也被采用数字视盘,DVD。MPHL:美国HDTV大联盟方案。 MPH1440:欧洲HDTV方案,3、基于帧/场编码模式 (1)帧/场DCTDCT变换是在场内,还是在帧内进行,是基于景物的局部空间内容与空间相关性有关。虽然场的行距是帧的行距的两倍,但前者的相关性并不是总比后者小。若景物中有相当大的运动,帧DCT的
35、效果不如场DCT,这是帧DCT中隔行产生的边缘效应,会使大的DCT系数出现在左下角,而不是右上角。,在作DCT之前,要作帧/场编码的选择。选择的方法是对1616的原图像或对亮度作运动补偿后的差值作帧的行间和场的行间的相关系数的计算。如果帧行的相关系数大于场行的相关系数,就选帧DCT编码,否则就选场DCT编码。 一般情况小,对细节多,运动部分少的图像,选帧DCT;对细节少,运动部分多的图像,选场DCT。,(a) 帧DCT编码的亮度宏块结构,(b) 场DCT编码的亮度宏块结构,(2) 帧/场的运动补偿运动补偿,MPEG-1是按帧进行的。MPEG-2考虑到视频信号隔行扫描的特点,增加了按场补偿的方法
36、,以便更有效的提高运动补偿的效果,并可能部分解决运动物体遮掩/露出的问题。下面给出具体的混合预测/内插运动补偿算法,(A)P帧运动补偿是以过去帧为参考帧,根据当前帧和参考帧的两种属性,奇场和偶场,可以组成四种运动补偿方式,与帧补偿方式一起共五种不同的补偿方式。通过MSE准则选择P帧最佳运动补偿方式。,(B)B帧运动补偿以过去帧和未来帧为参考帧,可分为前向、后向和双向预测三种方式。前两种方式与P帧运动补偿方式相同,分别得五种预测。第三种预测利用双向平均值做运动补偿。从以上多种组合中以MSE准则,选出最佳运动补偿方式。,场图像的场预测示意图,3、可分级编码技术目前常用的分级编码方法有信噪比、空间、
37、时间域分级等。这里介绍信噪比和空间域分级编码技术。 (1)信噪比可分级编码技术主要考虑,是随接收条件变差图像质量“适度降级”,以避免数字广播所特有的“邻户突变”现象,即在广播覆盖边缘附近突然一点也没有信号。,(A)方框图,编码器产生两个数据流,从中可建立两个视频信号,其建立图像尺寸相同,只是图像质量不同,即信噪比的不同。通过可分级改变DCT系数的量化步长。 (B)底层码流底层码流MPEG-2基本编码环路得到,对DCT系数粗量化(量化器Q),解码得到较低质量的视频信号。,(C)顶层码流 顶层码流是通过对底层DCT系数粗量化的噪声再进行细量化(Q2),经编码传输得到。 (D)底层码流以高优先级传输
38、,顶层码流以低优先级传输。这样,在接收边缘地区,仍可解出低层码流,重建较低质量的视频信号。在正常接收地区,接收机可同时解出底层和顶层码流,产生正常质量的视频信号,从而实现不同质量的可分级视频信号传输。,(2)空间域可分级编码技术空间域可分级的主要目的是实现不同大小的图像即SDTV和HDTV服务的兼容性。它的实现框图如图343所示。,(A)方框图,利用对图像象素的抽取与内插来实现不同级别的转换。 (B)底层码流输入图像经分辨率下抽样(水平、垂直分别2:1取样),得到SDTV图像,经过独立的编码环路产生底层码流。 (C)顶层码流通过内插、加权,对全质图像与底层图像的差值编码,形成顶层码流。,5、M
39、PEG-2系统运输层 MPEG-2标准的系统部分是如何将音频、视频以及数据的基本码流组成一个或多个适合存储或传送的码流的规定。 1)系统运输层的结构,A)视频和音频数据经编码器后分别得到视频、音频基本码流(ESElementary bit stream) B)经过打包器按一定的长度分段,切割成一个个单元,并加入必要的信息。将ES打包为打包基本码流PES (Packet Elementary stream) 。PES的数据长度,最大可以216字节,但一般是一个存取单元的长度。一个存取单元相当一幅视频图像,或是一个音频帧。在PES的头部含有许多信息,借此可识别是视频还是音频、数据,也可以知道小包的
40、长度等。,C)将PES打包为两类不同的码流输出到信道:一种叫节目码流(Program Stream),另一种叫运输码流(Transport Stream)。节目码流适用于相对无误码的环境,如交互式多媒体、CATV中。节目码流中小包的长度相对较长,并且是可变的。运输码流适合于易发生错误的环境下,例如网络传输,卫星信道、地面电视广播等运用环境中。运输码流中的小包长度固定,为188字节,这对处理误码有好处。,2)PES组成每一个PES分组由PES起始码、PES头标志、PES头域以及净荷组成,如图345所示。,在PES数据块的前面有一个PES头,它包含了许多信息。 PES包起始码(packet Sta
41、rt Code):3Byte, 共23个“0”和一个“1”,即“0000 0000 0000 0000 0000 0001”。PES的比特构成格式是专用的,在码流中不会有这种组合代表别的意思,它起同步作用。 包标识(Stream ID):说明这个包码流的性质(视频、音频或数据)及序号。例如:110表示音频码流,序号为1111表示视频码流,序号为,PES包长度(PES Packet Length):说明这个字段后面有多少个字节。 PES头标志(PES Header flags):它有14个bit,包含有很多内容,如图346所示,SC:表示加扰指示。PR: 表示优先级。DA: 表示数据匹配指示。C
42、R: 表示有无版权指示。OC: 表示原版或拷贝。 PD: 表示是否有PTS(Presentation Time Stamp,显示时间标志,告诉解码器一个显示单元应该显示的时间)或DTS(Decoding Time Stamp,指示一个存储单元进行解码的时间)。 ESCR: 标识PES包头部是否有Elementary Stream Clock Reference,即基本码流的时钟基准信息。,RATE: 表示PES包头是否有Elementary Stream Rate ,即基本码流速率信息。 TM: 表示指示是否有8个比特的字段说明DMS(Digital Storage Media)的模式。 AC
43、; 未定义。 CRC:表示是否有CRC字段。 EXT:说明是否有扩展标志。,PES分组与一个图像序列、一个GOP或一幅图像的起始码对齐,即PES分组净荷的第一个字节要么是图像序列的起始码,要么是GOP的起始码,要么是图像的起始码,3)运输小包运输小包的结构如图347 所示。(1) 固定长度:188字节(2)一个新的PES包数据总是开始一个新的运输小包,如果PES包在运输小包的中间结束,那么运输小包的余下长度内就用填充字(stuffing bytes)放进去。,(3)运输小包由包头和净负荷数据组成,其的头部分为两层,一层是固定长的的连接层“Link Layer”,另一层是可变长长度的适配层“Ad
44、aptation Layer” A)连接层有4个字节的字段,它们的主要作用如下: a) 包同步。它是包的第一个字节,用于建立同步。 b) 包识别(PID)。用于标识运输小包属于哪一个节目的视频、音频或辅助数据,包之所有能复用和解复用,就是靠特定的基本码流和控制码流的包识别符号。,c) 误码处理。在发送端对所有的包作0到15的重复计数,在接收端如发现连续计数器的值有中断,就表明数据在发送中丢失了。解码器的运输层处理器就会告诉解码器某个基本码流丢失了数据。 d) 有条件接通。运输格式允许包的数据作扰乱处理,各基本码流都可以独立进行扰乱。连接头的信息要说明包中的净负荷数据是否被扰乱了,如果被扰乱了,
45、就要标志出扰乱的密钥(用户必须有个码表)。,B)、适配层为可变长度,它的作用如下: a) 同步和定时。 b) 随机进入压缩的码流。 c) 当地节目插入。,4) 双层复用 (1)双层复用结构,A)第一层节目复用(Program Multiplex)。复用有共同的时间基准 。称为节目运输码流(Program Transport Stream )。B)第二层叫运输复用(Transport Multiplex)复用时彼此可以有独立的时间基准 。称为运输码流(Transport Stream ) 。,(2)双层复用的具体方法 。,A)节目复用: 各个基本码流的运输小包头部都有一个识别符PID, 在复用时
46、还加一个基本码流表(Elementary stream map)或称节目映射表(Program_map_table)。它相当一个目录表,这个表包含了组成本节目运输码流(Program Transport Stream )的各个基本码流的PID信息、数据的性质、码流彼此之间的关系等。这个基本码流表也有识别符PID(n+1)。,B)运输复用的组织方法类似于节目复用,它有一个节目码流表(Program Stream map)或称做节目组合表(Program _association_table),这个表包含了用于节目复用的节目映射表(Program_map_table)的各个PID(n+1)。这个表
47、本身有个识别符PID=0,(3)节目运输层解码过程,要识别一个节目和它的内容就有二步 A)第一步,利用PID=0的码流中的节目组合表来找出带有节目映射表的那个码流。 B)第二步,从所选用的节目映射表中找到组成该节目的各个基本码流的PID。完成这一步,解复接的滤波器就可以接收感兴趣的节目的基本码流,而丢弃其余的运输码流。,四、MPEG-4 1、概述ISO MPEG-4工作组1993年成立,它得目标是制定通用低码率(小于64Kb/s)标准。 主要应用于移动通信中得声像业务、其它多媒体数据(如计算机产生得图形、图像)的集成和交互式多媒体服务等。在564 Kb/s的范围内,MPEG-4支持的图像格式从
48、每行几个象素、每帧几行到CIF格式,帧率从0Hz到15Hz。,2、主要功能1)基于内容的编码。 不是基于象素的编码,而是基于对象(Oblet)或实体(Entity)进行编码。对每一个对象编码形成一个对象码流层,该对象码流层中包含对象的形状、位置及其它方面的属性。对一幅图像编码所形成的码流由一系列对象层码流构成。用户可以直接对“对象层”进行操作,例如,有选择地对其中几个对象层解码和显示、对其中某个对象进行放缩、位移和旋转等操作(编辑)以后再解码显示、或增加原图像中没有的新对象。这里所讲的对象可以是由图像表示的自然界景物,也可以是由计算机图形学方法生成的物体、或是两者的结合。,2)编码效率的改进。3)错误处理的鲁棒性。有助于低比特率视频信号在高误码环境下的存储和传输。4)基于内容的可伸缩性。即有选择地只对感兴趣地对象进行传输、解码和显示,3.3 MPEG标准,3.3 MPEG标准,3.3 MPEG标准,3.3 MPEG标准,3.3 MPEG标准,3.3 MPEG标准,3.3 MPEG标准,3.3 MPEG标准,