视音频压缩编码技术.ppt-道客多多

资源描述

1、,视音频压缩编码技术的发展,北京广播学院,信息工程学院电视工程系,张琦,主要内容,一、数码率压缩编码基本技术,二、现在应用的国际压缩标准,三、 MPEG 编码标准的比较,(一） MPEG-1 （二） MPEG-2 （三） MPEG-4 （四） MPEG-7 （五） MPEG-21,一、码率压缩编码基本技术,1、信源的数码率和压缩的必要性数字电视信号要求大容量存储器，传输数据率高。 4：2：2采样，8bit量化时，为： 216Mb/s， 1GB硬盘存：1GB/27MB = 37s 的节目。结论：要使数字电视信号适合于实际存储和传输，必须压缩数据量，降低传输数据码率。前提：压缩后图象质量要

2、满足视觉要求。,2、信源码率压缩的可能性,信源数据存在各种冗余信息 1）空间冗余：相邻象素、相邻行信号的相关性； 2）时间相关冗余：相邻帧信号的相关性；可压缩内容：冗余量信息论表述：信息量数据量冗余量；注：冗余多余的、重复的。,信息已经成为经济的战略资源，而数据压缩成为多媒体信息处理的关键技术。在多媒体的传输和处理中还有许多问题需要进一步解决。例如，如何提高网上传输图像和视频的质量，如何通过网络在世界范围进行信息交换？解决这些问题仍需要提高压缩编码效率、分级和实用的转码方法。,3、压缩编码的意义,4 、 MPEG码率压缩编码方式,预测编码，变换编码，熵编码。（1）熵编码：是无损编码。

3、熵编码要预先知道或估测不同事件出现的概率。熵编码对出现概率大的事件用短码字编码，反之用长码字编码，使事件的平均码长缩短，实现码率压缩。,4、码率压缩编码方式,（2）预测编码,1）帧内预测编码,将当前像素实际值与其预测值的差值进行量化编码称为预测编码。预测值由同一行前面的相临像素和上面相临行的相关像素来产生时，称为二维预测。二维预测可去除空间冗余。预测精度越高，编码效率越高。,4、码率压缩编码方式,4、码率压缩编码方式,2）帧间预测编码帧间预测可去除空间冗余，差值概率分布更集中在0附近，可获更大压缩比。,帧差信号,帧间预测框图,链图,4、码率压缩编码方式,3) 预测编码的意义：画面上大部分是亮

4、度变化缓慢的平坦部分和慢运动部分，空间和时间相关性强，差值信号很小；大部分差值集中在0附近，传送差值信号减小了原数据幅值范围。原图像信号的幅值分布概率均匀，而且差值的概率分布很不均匀，这就为后面的熵编码创造条件。,差值与原图象的概率分布,4、码率压缩编码方式,4、码率压缩编码方式,（3）变换编码变换编码，把空间域描写的图象变换到一个正交的变换域。空域的一个NN个象素像块变成变换域的NN变换系数块。变换仅是表示方法的变换。原象块中的象素之间相关性很强；而变换系数能量集中在直流和少数低频系数上，降低了冗余度。例，二维傅立叶变换，将空间域变换到频域，在水平和垂直方向上进行频谱展开。下图表示,

5、水平方向8个像素数据从时域到频域的变换：图像信号被分解成为直流、低频到高频各种余弦成分； DCT系数表示各频率幅度的大小；,变换编码的基本系统：在存储器中将图象分成88的块，将块从空域变换到频域得88个系数F（u,v）。量化：对DCT系数进行量化，低频系数细量化，高频系数粗量化，并4舍5入，忽略接近或等于0的高频系数。将64个量化后系数进行游程编码，再VLC编码。接收端经解码、反量化和反变换恢复图像块。,4、码率压缩编码方式,变换编码系统框图,分块,DCT 变换,量化,编码,解码,反量化,反DCT变换,块组合,输入数据,接收输出,信道,4、码率压缩编码方式,图像内容 DCT变换例,返回,D

6、CT 分块,每个系数都由原64个像素算出,二维DCT的反变换（IDCT）,x ，y = 0,1,N-1,每个重建像素幅值都由64个DCT系数算出,88亮度块的DCT变换、量化例,0 i 7 0 u 7,j7,d,a,v7,v7,量化,DCT变换,0 u 7 0 u 7,v7,b,c,量化表,二维DCT变换的基图象,去空间相关性,88亮度块的DCT反变换、反量化处理例,e 反量化后的DCT系数 f 反DCT，重建像素样值 g 重建样值与原始值之差,591 110 20 32 24 0 0 036 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0

7、 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 00 0 0 0 0 0 0 0,98 97 90 81 80 79 67 5097 96 89 80 79 78 66 4995 94 87 78 77 77 64 4793 92 85 76 75 74 62 4590 89 82 74 72 72 59 4388 87 80 71 70 69 57 4086 85 78 70 68 68 55 3985 84 77 69 67 67 54 38,0 5 5 1 5 3 1 00 5 5 1 5 3 1 00 5 5 1 5 2 1 00 5 5 1 5 3 1 01

8、 4 6 1 4 3 2 0 1 4 6 0 -4 4 2 11 4 6 1 4 3 2 00 5 5 2 5 2 1 -1,e,f,g,DCT系数的量化,DCT本身并不能进行码率压缩， DCT只是降低相关性（冗余度）。数据压缩从量化开始。量化对每个系数分别用大于1的数去除，对除得到的系数取整数，人眼对低频敏感，对高频不太敏感,对低频分量采取细量化，对高频分量采取粗量化，高频分量会多数变0。丢弃低能量高频系数不影响重建图像的主观质量。改变量化系数可改变压缩比。量化是有损压缩，产生块效应,块效应,2、4：量化系数,量化系数的实际确定方法,量化系数的获得过程：根据对大量能代表电视节目素材的各种图

9、像序列进行主观评价的结果，对大量的量化系数进行优化，使图像的主观损伤最小，最后确定一系列具有代表性的量化系数。量化系数选择：根据应用目的、性能、低延时、复杂度和价位等要求，在一些系数中选择。,之字形扫描,游程长度编码 (RLC),为解决连 0 的表达方式采用游程编码。在量化的DCT交流（AC）系数中，将每一串连0系数与其后面的一个非0系数组成一个数组，并用一对符号表示：符号1 符号2（游程长度Run,位长）（幅值）游程长度：非零系数前连0的个数；幅值：非零系数值。例如，下图其游程长度编码结果：(25),（0,4)(10),（0,2)(3）,(2,2)(-2),(0,2)(2),(

10、7,1)(-1),(0,0)第一个数是直流（DC）系数。游程编码使64个系数只需7对符号，用7个码字表示即可。,游程长度编码 (RLC)图,返回,信息：反映客观事物的存在状态或变化规律。信息量：香农信息论：信息量数据量冗余量，与事件出现的概率有关。从N个概率相等的事件中选出一个事件所得的信息量信息熵：若N个事件（符号）中的每个事件之概率不相等，则每个事件所含的信息量不等，并由其概率决定，概率小者信息量大。每一个事件所携带的平均信息量称为熵（H）。熵编码，是可变长编码。通过合理的比特数分配使信号字长与概率相匹配，对概率大的符号给短码，对概率小的给长码，以缩短平均字长。,（5）熵

11、编码,比特,霍夫曼编码,游程编码后的熵编码多用霍夫曼编码（VLC)。,编码标准提供霍夫曼码表，根据游程编码得到的符号直接查表，得到相应的码字。码表是根据概率分布并对大量典型图像素材进行统计制成的,游程编码后的熵编码,对符号1中的数据，从亮度和色度的系数码表查出霍夫曼码；符号2中的数据仍用自然二进数编码，也称可变长整数（VLI）编码，码字长度也是可变的；直流系数DC采用与相邻像块DC的差值编码；对前面图中的游程编码结果进行熵编码，结果是：11011001 10111010 0111 1111100101 0110 111110100 1010,图,压缩比计算,以上由64个像点样值编码所得数

12、据的总位数是47。可用抽样位率表示压缩程度，即用平均每个像点占用多少位来表示。对于此88像块的抽样位率计算如下：也可以用压缩比CR来度量压缩程度。本例按原图象用8比特量化的88像块计算，可得压缩比为：,视频缓冲校验器,一个编码器输出的数据流码率不是恒定的，输出码率高低取决于：量化步长、原图象的复杂度。向通道馈送的码率必须是恒定的。视频缓冲校验器作用：编码器输出必须有一个视频缓冲校验器VBV ，暂存码率不恒定的输入数据流，受控以恒定码率向通道输出压缩数据流，起缓存数据和平滑码率的作用。码率控制：用缓存状态控制量化器，调整量化步长，防止缓存溢出。,TM5,SRC,码率控制,DCT压缩编码简

13、图,多媒体数据能被压缩多少？,估计图形：100000:1? 视频10000:1?（据人的视觉系统输入输出比）图像：2500:1?一画含千音（3MB:2KB) 语音：1000:1？（据抽样频率40K和每秒说的字数比）文字：3:1?(据信息论统计）现实 VCD：51:1(61:1.2) DVD：50:1(249:5) HDTV：75:1(1493:20) 可视电话：78:1(4977:64),二、现在应用的国际压缩标准,1、ITU-T制定的：H.261,用于ISDN环境,电视会议、可视电话等；H.263，瞄准极低码率；H.263+是H.263的扩展，提高了压缩效率，增强了功能；H.263

14、+和新近制定的H.26L,提高压缩效率的同时，还提高了容错能力，数据率可低到28128kbps,用于无线通讯、互联网视频会议、远程监控等。(CIF orQCIF) 2、 ISO/IEC 制定的： JPEG，连续色调静态图像压缩编码标准； MJPEG ，用于连续的静止图像序列压缩编码；,JPEG-2000 （JPEG-2），用于数码相机、网络传输、医疗、传真、扫描和打印等静止图像编码标准； Motion JPEG2000，低比特率视频编码，基于小波变换；压缩率比JPEG高约30%。,JPEG2000（1：137） JPEG（1：137）,视频图像格式一览表,二、现在应用的国际压缩标准,M

15、PEG-1，用于数字存储媒体的活动图象和伴随音频的压缩编码标准。 MPEG-2，活动图象及其伴音的通用编码标准 MPEG-4，基于音视频对象的编码标准 H.26L ，ITU-T 称 H.264，IEC 14496-10AVC MPEG-4的新视频编码标准，ITU-T和MPEG联手制定。 MPEG-7 ，多媒体内容描述接口。对多媒体信息检索制定的标准。 MPEG-21，将不同的协议、标准、技术等集成在一起，称为集成的统一多媒体框架。目标是建立一个交互的多媒体框架,1992年11月形成国际标准，用于数字存储媒体的活动图象和伴随音频的压缩编码。输入图像标准是SIF：25帧，360288（PAL）

16、;30帧，360240（NTSC）;4:2:0抽样。只规定了逐行扫描的句法，不能用于隔行扫描。码率可达1.5Mbps。 MPEG-1不能提供分级编码，也不适合在传输条件差的环境中应用。解码后的SIF分辨率图像扩展到全屏幕，得到的图像质量和VHS相当。应用于CD-ROM交互，VCD 立体声的编码达到CD质量。标准分五个部分：系统，视频，音频，一致性测试，参考软件,三、 MPEG 编码标准的比较（一） MPEG-1标准,MPEG-1 音频编码标准,音频部分只允许单声道和立体声；定义了48kHz、44.1kHz 、32kHz三种采样频率；三层编码（Layer，和）数据率分别为192、128

17、、96 kbps，MPEG-1的音频Layer简称MP3。 MPEG-1标准的应用情况：VCD、CD-ROM； PC的音视频格式；Windows 95/98/NT的MPEG-1软件解码器；在欧洲和加拿大数字音频广播（DAB）；网络交换音乐的编码广泛应用MP3文件。,分块：视频采用基于块的混合编码；时间预测：对活动图像序列进行帧间预测；运动估计和运动补偿：减小预测误差; DCT变换：对预测差值进行DCT变换；空间预测：去空间冗余；量化：对DCT系数进行非线性量化。编码：游程编码和VLC编码。三种编码图象：帧内编码I帧，前向预测P帧，双向预测B帧,MPEG编码的基本算法,（1）运动估计

18、：以宏块为单位，用块匹配法找出运动矢量（搜索，判据）（2）运动补偿：据运动矢量在重建帧中读出预测块，（3）计算预测误差，（4）对预测误差进行DCT，（5）对DCT量化；（6）RLC和VLC编码；（7）对运动矢量编码并与图象数据复用；（8）经缓存控制输出。,1 帧间预测编码步骤,MPEG-1视频编码器,2 运动矢量：运动物体的位移矢量 dx,dy,若第K-1帧的运动物体位置中心点为（x1，y1），在第K帧中移动到（x1+dx，y1+dy）。须将第K帧（x1+dx,y1+dy）点的运动物体与第(K-1)帧的(x1,y1)点相减。3 运动估计：求运动矢量的过程,4 运动补偿运动补偿：利用运动矢量从前

19、一帧内读出预测象块，形成当前帧运动物体的预测值。预测编码：对预测获得的差值及运动矢量进行编码。5 块匹配：对视频图象分成宏块（常用1616的宏块），以宏块为单位在前一帧搜索与当前宏块内容最相近的宏块，称块匹配。块匹配的目的是求运动矢量。,运动补偿的必要,返回,运动估计图解,块匹配搜索,块匹配是一个搜索过程，采用均方误差准则或绝对误差准则作为块匹配准则。匹配的过程就是求这些误差最小值的过程。均方误差（MSE）定义为绝对误差（MAD）定义为Sk（m，n）当前的图像块；Sk-1（m+i，n+j）在前一帧搜索窗内搜索的块。,块匹配准则,运动补偿图解,4:2:0亮度和色度宏块,双向预测B帧,

20、MPEG-1标准的视频解码器,VLC解码器先解出图像头信息，确定图像类型，提供预测方式和运动矢量等信息，解出量化的DCT系数。反量化还原DCT系数，反DCT还原出像块的预测差值，预测差值再与当前的预测值相加，恢复像素值。经过运动补偿，得到相应的预测值。还原的图像数据存储在缓冲器里，经重新排序后，按图像显示顺序输出。,MPEG-1 解码器简图,重建帧,MPEG的视频数据流结构,MPEG 对运动图像序列的编码数据用6层结构表示：图像序列层：由连续图像组成，用序列终止符结束。图像组层：图像组（GOP）由几帧连续图像组成，是随机存取单元，其第一帧总是I帧。图像层：图像（帧）编码的基本单

21、元，独立的显示单元。宏块条层：重新同步单元。宏块层：MB 运动估计的基本单元。块层：块（B）DCT的单元。块数据由图像数据加块结束符（EOB）组成。,数据流结构,GOP 1,图像1,条 1,宏块 1,Y 1,88 系数块,序列层,GOP层,图像层,宏块层,像块层,0x000001B3,宏块结构,（a） 4：4：4 （b） 4：2：2,Y CB CR Y CB CR,5,6,(c) 4：2：0,Y CB CR,4,MPEG的图像组,I帧：帧内编码，提供进入压缩图像数据的随机存取点，是图像组（GOP）的第一帧。帧间编码： P帧和B帧 P帧，用前面最靠近的I帧或P帧进行预测，称正向预测

22、。 B帧，称为双向帧或内插帧，它既用前面P帧和I帧又用它后面的P帧作为参考帧，进行双向预测，通过内插得到重建帧。大的图像组包含1015帧图像。小图像组只有23帧图像。,(1) “开放性”的视频码流：I 帧在码流中出现的位置和频率，可根据图像序列中随机存取和景物切换的需要进行选择。相邻最近的I与P帧或P帧之间的B帧数目可以选择。（2）I，P，B三种图象的数据压缩比：25：1， 510：1，2030：1 （3）图象的编码顺序和显示顺序不相同,视频码流的特征,显示次序（原始图像次序）,编码次序,（二） MPEG-2标准( ISO/IEC 13818 ),“活动图象及其伴音的通用编码” ，94年1

23、1月公布；用于DVB，HDTV，DVD。MPEG-2和MPEG-1的图像结构相同。MPEG-2通用性较强，满足对图像质量和传输速率的多层次要求，技术成熟。图像格式：704576（PAL）和704480（NTSC），码率为315 Mbps； 9Mbps模拟分量质量；能处理逐行扫描和隔行扫描图像，包括16：9宽高比图像格式；,MPEG-2标准,解决了通用性和特殊要求，定义了不同的类和级考虑到和MPEG-1 兼容；有可分级性、灵活性和广泛的适应性，系统和传送规定更详细和完善，规定了多路节目复用方式，兼顾与ATM信元适配；支持多声道的音频编码；先进音频编码（AAC）,1 MPEG-2的类（Pro

24、file）和级（Level）,类：针对不同的应用规定了若干个语法子集，这就是“类” 。“类”规定可用那些语法元素，怎么用。共六类：高类（HP），主类（MP），空间可分级类（SSP），信杂比可分级类（SNRSP），简单类（SP），4:2:2 类。它们基于一个共同的语法准则。级：每个类中按参数不同又分四个级。 “级”规定语法元素的值可怎样取。,MPEG-2 类和级的组合,352288，30帧,720576，30帧,14401152，60帧,19201152，60帧,4/3,16/9,MPEG-2级和类的最大约束参数,MPEG-2视频编码的分级,MPEG-2的分级扩展：空间分级、时间分级、SNR

25、分级和数据分流。分级作用：对传输通道和复杂性不同的客户端提供不同质量的服务。空域分级：大小不同图像的兼容传送，时域分级：用于不同帧频图像的兼容传送； SNR分级实现不同质量的视频服务兼容；数据分流：解码的重要信息放在一起，用部分频带以较高的信噪比发射，保证接收。相对次要数据以较低能量发射。,MPEG-2解码,重建像块差值,每个GOP的头部送一个量化矩阵,用两个码表解码,运动矢量,重建像块数据,提取各种参数,MPEG-2系统部分规定：如何将视频和音频以及数据的基本码流组成一个或多个适合于存储和传输的单一码流；如何加时间（同步）信息。基本码流ES：编码器输出的视频和音频数据流。打包的基本

26、流（PES）： ES打包形成，长度可变，一般是一个存取单元（一个视频帧或音频帧的长度）。节目码流（PS）：几个具有公共的时间基准的PES经节目复用形成的单一码流。适合交互式多媒体应用。传输码流（TS）：传输复用器输出。输入的PES可以具有公共时间基准（可先节目复再TS复用），也可是各自独立的时间基准（直接TS复用）。TS小包长度固定为188个字节。TS适合于有噪声或介质损耗的环境中存储或传输。,2 系统传输层的作用和结构,系统复用的结构框图,PS 复用,PES,ES,数据编码器,TS 复用,3 PES的结构,3Byte 1Byte 2Byte 2bit 14bit 1Byte,起始码；

27、包识别ID ；PES长度表示；PES头部标志包含：SC，加扰指示；PR，优先级指示；DA，相配合的数据；CR，有无版权；OC，原版或拷贝；PD，有无PTS（显示时间标志）或DTS（解码时间标志）；ESCR，表示是否有基本码流的时钟基准信息； RATE，是否有基本流速率信息；TM，是否有8比特字段说明数字存储媒体（DSM）的模式；AC，未定义；CRC，是否有CRC字段；EXT，是否有扩展标志。,4 传输码流（TS）和节目码流（PS）结构,包头,PS包1,PS码流由一个或多个具有公共时间基准的PES包组成； PS包的长度可变 PS码流构成：,PS结构,TS码流由一个或多个PES包组成，这些PES包

28、可以是有一个公共的时间基准，也可以是几个独立的时间基准。 PES包被分割成一个个传输包，PES包头数据总是开始一个新的传输小包，若PES包在一个传输包的中间结束，余下的长度放入填充字节 TS码流由TS包组成，TS包的长度固定，为188字节每个TS包由包头和净荷组成。,传输小包的组成,传输小包的包头组成,（1）链接头作用 1）包同步：用于建立包同步； 2)包识别PID：复用和解复用的识别信息，靠PID提取基本码流； 3)误码处理：发端对包作015的重复计数，接收端发现连续计数中断，就会判断丢失数据； 3)有条件接收：传输格式允许包的数据作加扰处理，各基本流可独立扰乱，传输包的连接投要说明是否扰

29、乱，标志出解扰密钥。头部信息不允许扰乱。,(2）适配的作用,1）定时:一些包的适配头传时间信息，即在（PCR）字段传27MHz时钟，指出解码器从码流中读完该字段的期望时间。解码器的时钟与PCR比较，调整本时钟频率，进行同步。 2）可随机进入压缩码流在节目调节或更换时应该随机进入音频和视频的I帧，在I帧前的视频序列的头部应该有一个随机进入点。 3）可插入本地节目。,188字节,包头,净荷,适应字段,可选字段,TS包格式,5 多路节目双层复用TS流,系统传输复用器,：：,服务信息,双层复用,第1层节目复用（Program Multiplex）： PES有共同的时间基准。第2层传输复用（Tras

30、port MultIplex）： PES可各有独立的时间基准,每个节目经压缩编码产生基本流（视频、音频、数据），打包成PES流，送节目复用器。各节目复用器输出的PS和服务信息经传输复用器组合成一个单一的码流。,ES：Elementary stream Es map：program map tableES1 video ES2 audio ES3 AudioESn-1 Data ESn Data ES map,（1）节目复用,PID1 PID2 PID3PID n-1 PIDn PID n+1,进入节目复用器的每个基本码流都有个包识别符PID复用时加一个基本码流表Elementary strem

31、 map，称节目映射表Program map table。它包含组成本节目传输流（Program Transport Stream）各基本码流的PID、数据性质与码流彼此间的关系等。,该基本码流表的识别符为PID n+1。经“节目复用”的码流称为“节目传输码流”。,（2）传输复用,对各个节目的PS流进行复用。加个节目码流表Program Stream map，或称节目组合表Program association table，它包含各节目复用的节目映射表PIDn+1。它本身的识别符PID=0。,节目的传输解复用过程如下：,识别一个节目及其内容需二个步骤： a.利用PID=0的码流中的节目组

32、合表找出有该节目映射表的码流PIDn+1；b.从节目映射表中找到该节目的各个基本流的PID ；解复用滤波器即被设置到所找节目的基本流上。,5 统计复用,定义：传输信道带宽恒定，传送总码率须恒定。信道中复用的各节目的传输码率是不恒定的，可在各VBR节目之间实行按图象复杂度分配码率的原则，即统计复用。复杂度：快速运动、细节多的图象所需压缩码率比静止的、细节少的图象高的多。若各节目都以恒定比特率CBR传输，借助缓冲器反馈控制量化步长，使复杂图象质量降低; 若各节目用可变码率VBR传输，按图象内容分配码率，可保证图象质量均衡。如，DVD、SVCD采用VBR提高图像质量。关键问题：对图象序列随时进

33、行复杂度估计；实时对视频业务动态分配带宽。在CBR信道上传送VBR视频压缩图象，需有信道缓存器进行平滑；采取码率控制，缓存器的占有率反馈到控制器，调节各编码器的量化步长。,Sanghoo Lee提出的动态分配带宽的算法,根据每个视频图像源所需传输码率、在一个GOP种可提供的传输码率和虚拟缓存器状态，计算每个图像源的参考带宽之间的关系，决定分配给视频源的带宽。 1 据信道提供的传输总码率、图像编码类型、每个源的GOP结构和总的虚拟缓存器的当前状态，决定给每个视频源的带宽；据带宽的最佳分布函数估计一下视频源的GOP所需的带宽；据每个视频源的参考带宽和估计带宽，给每个视频源分配带宽；,空间复杂

34、度（spatial information- SI）和时间复杂度（temporal information- TI ）的计算，基于Sobel filters,(1)i ，j ：horizontal and vertical positions of the pixels； Sobelh ，Sobelv：horizontal and vertical FIR values of the filter.STD:标准偏离算子(2)n ， n1 ： current frame and the previous one.The overall SI and TI concerning the pictu

35、re sequence can be given either by their average values or by their maximum values in each frame.,6 解码与编码的同步和时间标志,编解码的同步、图象和声音的同步：显示前重建压缩前的图象次序；音频和视频同步显示。原因：I、P、B帧数据量不同；解码输入图像次序不同；视音频ES交错传送。插入时间标志（time stamp)：系统时钟：STC，90kHz, 系统时钟基准：SCR，从STC抽样得到，33bit，插在每个大包头部第5到第9字节，指明SCR的最后一个字节离开编码器的时间，在解码器的输入

36、端提取这个时间。显示时间戳 PTS，出现显示单元的时间；解码时间戳 DTS,从基本码流解码缓存移走存取单元全部字节的时间。,返回,MPEG系统延时模型,音频输出,时间标志系统,STC,缓冲解码显示,STC,视频出,音频入,视频入,幻灯片89,（三） MPEG-4标准 ISO/IEC 14496 “基于音视频对象的编码”,MPEG-4是一个庞大的有关交互多媒体编码与通信的标准，当前使用的视音频编码系统和标准不能全部满足通信、计算机和广播业的迅速融合所提出的要求。称第2带编码：基于内容去冗余（事件本身含义），基于内容的交互（接收者的意愿）。MPEG-4把一个视听场景定义成了一系列可再现的“

37、视听对象”。MPEG-4还具有对不同来源对象进行合成的功能。MPEG-4标准旨在将各种多媒体应用集成于一个完整的框架内。MPEG-4标准支持各种扫描标准和图象格式。可支持的比特速率低速率可低到564kb/s，高速率高达 5Mb/s。MPEG -4具有广阔的应用前景。,1、MPEG-4标准的目标,1999年5月形成国际标准，是基于对象的视、音频编码标准，本是甚低比特率的视音频压缩编码标准，现满足数字视听材料交换需要；不是单纯的视音频编解码标准，它更多的是定义一种格式、一种框架，而不是具体算法，为多媒体数据压缩提供更为广阔的平台，允许加入新算法，方便计算机软件编解码；视频码率覆盖范围5 kbi

38、tps 5 Mbitps ；音频码率覆盖范围 2 kbitps 64 kbitps 。,2、MPEG-4标准的主要特征,（1）基于对象和基于模型的编码在音视频景物中可分出若干个“对象”，见下图。 MPEG-4支持对场景中的物理对象单独进行编码和解码，并支持矩形及任意形状对象的编解码 MPEG-4的视频对象编码技术包括了MPEG-1与MPEG-2编码，但多了形状编码，要将形状信息传送给解码器，见图。标准分6个部分系统，视频，音频，一致性测试，参考软件，DMIF,图 8 一个面向对象的电视情景,Sports results: Portugal - Brazil,Sports results:

39、 Portugal - Brazil,SPRITE对象分割,活动对象幻灯片 160,具有外加对象的合成场景,场景描述图,对象的二值形状信息,News一帧图像前景对象的二值形状信息,MPEG标准返回,MPEG-4 的编码器增加了形状编码视频对象编码器,Object Decoder,MPEG-4编解码系统,视频对象合成,The object-based architecture of an MPEG-4 system.,Scalable Coding,基本层,增强层,分级预处理,分级后处理,Scalability of Objects,视频演示,编/解码器,MPEG-4标准的主要特征,（2）自

40、然与合成音视频数据的混合编码 MP EG-4编码支持自然音与合成音视频，在解码端能合成不同来源的自然对象与合成对象。（3）提供基于对象的交互功能不同的数据源可视为不同的对象，数据接收者可以对不同的对象进行操作：删除、添加、移动、改变尺寸等属性。（4）基于对象的分级功能空间、时间和混合分级，适应互联网等窄带视频通信、多质量视频服务，精细分级使MPEG-4码流能通过各种不同通路，克服数字信号悬崖效应。,合成对象,互动演示,MPEG-4标准的主要特征,（5）场景描述用BIFS描述语言描述场景的结构和视音频对象的位置变化、尺寸、彩色、声音响度等属性。场景描述的核心是对多媒体对象的安排布置，用

41、户通过场景描述可以操作对象的显示状态，实现交互操作。场景描述用单独的数据流传输，单独编解码，可在压缩的数据流域实现对象控制。场景描述结构例：显示的图像序列、声音、音乐、语言，投影屏幕，背景墙，动画合成女解说员，讲由解说词产生的语言，还有合成的绘图桌子和地球仪。,BIFS场景描述例,MPEG-4标准的主要特征,（6）差错鲁棒性和差错回避 MPEG-4数据流允许在各种环境下传输，移动通讯链路的比特率低达10kbps，提供差错鲁棒性和差错回避技术。（7）音频编码音频部分专门为音乐、语言及人工合成声音定义了许多有效的编码方法，还能使音乐随着已经注释的场景演奏，并产生空间声音效果。合成音频编码

42、方法包括结构音频和文语转换（Text To Speech）。有音频对象空间化特征，用不同的空间定位可决定音源的空间位置，可用人工和自然音源来构造人工声音环境。,高编码效率，与H.263+或MPEG-4简单类相比，H.26L在多数码率下可节省码率达50%,在各种码率下都能持续提供较高的视频质量, 适用于视频会议、视频存储和以服务器为基础的视频流业务。系统框架见下图，图像分解为像条，各像条单独编码，编码输出复用；接收端解复、解码，合成原视频信号。,（8）MPEG-4的新视频编码技术特点 H.26L， ITU-T 称 H.264 2001.1月ITU-T和MPEG联手制定,1）对任何像块可在前面多

43、个参考帧(最多5帧)中寻找匹配像块，给出相应的运动矢量，能够实现更好的码流误码恢复；2）在运动估值和运动补偿方面,H.26L采用了不同大小和形状的宏块分割方法、更高的亚像素(1/4，1/8)运动估值精度，在预测环中增加了去除块效应的滤波器；3）使用了类似于DCT，但以整数为基础的空间变换，采用独特的整数算法，所有的运算可以只通过加法和位移实现，变换和量化的全过程可以用16位比特的整数运算进行，消除乘法运算带来的精度损失；避免了因4舍5入引起的反变换误差问题。4）在熵编码方面，使用两种码表，通用的变字长编码表(UVLC)和基于内容的自适应二进制算术编码(CABAC)。,（9）新增标准与以

44、前的编码方法不同之处,CABAC (Context-based Adaptive Binary Arithmetic Coding）基于内容的自适应二进制算术编码：(a)根据语法元素的内容选择概率模型（b）基于当前统计调整概率的估计,5）采用帧内预测编码： a. 44亮度预测模式;b. 616亮度预测模式;c. 88色度预测模式 ; 有6种44亮度像块的帧内预测模式，用相邻像素做预测；支持块大小由1616到44的亮度分量的运动补偿， 1/4像素预测精度； 6）H.26L增加了帧间预测模式的类型和精度。有7种不同的宏块分割方法，形成7种不同帧间预测模式。,7）除了支持I-、P-和B-帧外，

45、还支持码流间可转换帧，称为 SP-帧,能在有类似内容但有不同码率的码流之间快速切换，并同时支持随机接入和快速回放模式。,8）变换系数的扫描有之字形(Zigzag)扫描和双扫描两种方式。提高编码效率。 9）H.26L支持以往标准的大部分处理方法，但通过增强功能和灵活性提高效率：用7种不同大小和形状的帧间预测节省码率约15%；使用亚像素搜索精度与整数像素搜索精度相比能节省码率20%；使用5个参考帧预测与只用一个参考帧相比能节省码率（510）%；使用基于内容的二进制自适应算术编码能节省码率10%。使用去方块效应滤波还能获得非常可观的主观质量改进。,10）增加了演播室类(Profile)工具（2001

46、年1月）,基于对象的视频创作技术、用于演播室存储的高效编码工具，支持高达2048个像素的分解力、1.2Gbps的比特率和12比特量化。这可用于演播室和后期制作、演播室之间的节目传送等。对场景描述进行补充，支持手动和自动生成场景；增加了高级的精细分级（FGS）将使MPEG-4码流能通过各种不同带宽通路，克服数字信号的悬崖效应。已制定的MPEG-4的传输协议：MPEG-4的内容在MPEG-2的TS流内传送；MPEG-4内容通过IP传送。目前在管理工具、接口和知识产权保护方面正在加紧工作。,1）传输层：流复用，传输协议描述，定义应用接口。 2）同步层：基本流经同步层打包，打包时插入了定时和同

47、步信息、分段和随机存取信息。 3）压缩层包括：各种解码器；对象描述框架：利用对象描述子OD识别各种基本流知识产权管理和保护（IPMP）对象内容信息：传送视听对象的描述信息场景描述流：传输场景描述信息对象合成视听流上行通道流：接收端到发送端的上行信息,3、MPEG-4系统,MPEG-4系统体系结构,（四）MPEG-7 ( ISO/IEC 15938 ) 基于内容的检索,基于内容的检索：查询时针对对象本身，需要从媒体数据中提取特征（如颜色、纹理、形状等），根据这些特征从媒体数据库中检索出相似的图像或者视频内容。基于内容检索的类型：图像检索：视频序列的表示方法含基于关键帧、

48、基于运动的检索音频检索：含音乐、话音及其它自然声响等图形检索：含点、线、区域和关联检索文本检索：含字、词以及它们的逻辑集合,基于内容检索系统的简单结构,按MPEG-7描述标准建立的管理系统工作流程图例,提取关键帧,1、 MPEG-7标准的目标MPEG-7标准称为“多媒体内容描述接口” 。多媒体内容描述标准，定义了描述符、描述语言和描述方案，对多媒体信息进行标准化的描述，实现快速有效的搜索。 MPEG-1，-2，-4是对信息进行有效的表示，MPEG-7则对信息表示方法进行描述，为各种表示法的适当部分提供索引。前三种编码方法使得信息的内容变得容易获取，MPEG-7则使在需要时能找到它。 MPEG-7确立各种类型多媒体信息的标准描述方法，方法是描述符和描述方案的组合，并与所描述的内容紧密相关。,

展开阅读全文