分享
分享赚钱 收藏 举报 版权申诉 / 78

类型第二章多媒体信息处理(4).ppt

  • 上传人:gnk289057
  • 文档编号:9242136
  • 上传时间:2019-07-30
  • 格式:PPT
  • 页数:78
  • 大小:524KB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    第二章多媒体信息处理(4).ppt
    资源描述:

    1、第二章 多媒体信息处理技术,2.1 多媒体信息处理技术概述 2.2 信息表示与编码 2.3 多媒体数据压缩技术 2.4 多媒体数据压缩技术标准简介,2.4 多媒体数据压缩技术标准简介,一、概述,二、静态图像压缩标准JPEG,三、运动图像压缩标准MPEG,四、视听通信编码解码标准H.26X,一、 概 述,近年来,随着信息科学技术的飞速发展,多媒体及其相关技术取得了长足的进步,而有关多媒体数据压缩的理论和方法也在不断地取得新的进展,而且在不断地实用化或商品化。一些国家或国际组织(如ISO、IEC和ITU等)根据多媒体数据压缩技术的形势发展变化,已经或即将制订有关多媒体数据压缩标准,这势必将极大地推

    2、进多媒体技术,尤其是多媒体数据压缩技术的产业化。下面就有关多媒体数据压缩标准的基本概况进行简要的介绍。,1、声音压缩标准 音频信号可分为电话质量的语音、调幅广播质量的音频信号和高保真立体声信号。一般的语音信号的频率范围为300Hz3.4kHz,而高保真度的音频信号的频率范围为20Hz20kHz。下面的表2.6对三种音频的压缩标准的主要指标进行了对比。音频信号的压缩方法比较多。根据音频信号是否损失划分,分为无损压缩和有损压缩。有关音频压缩的方法如图2.26所示。,如今,音频压缩的技术已经得到了广泛的应用,并不断地发展和成熟,目前在国际上已经形成了音频的标准,这些音频标准也已成为有关多媒体数据压缩

    3、标准的一个重要方面。有关音频的标准如下表2.7所示。目前音频信号中的高保真立体声音频的应用越来越广泛,而国际上比较成熟的高保真立体声音频压缩标准是“MPEG音频”。所谓MPEG,是英文Motion Picture Expert Group的缩写,实际上是有关视频和音频的国际标准。MPEG标准中包含有对音频(其中包括高保真立体声音频)的压缩标准。当前,MPEG-1、MPEG-2和MPEG-4标准已得到公认,而新的国际标准(如MPEG-7等)正在制订中(目前已经发布了)。可以预见,随着多媒体技术的不断发展,未来有关高保真立体声音频压缩技术将越来越成熟和完善,以更好地满足人们对多媒体的音频信息的需求

    4、。,2、图像压缩标准 有关图像压缩的方法,也可以分成两种类型:有损压缩和无损压缩。如图2.27所示。无损压缩利用数据的统计特性来进行数据压缩,这种压缩不损失信息熵,可以完全恢复原始数据,其压缩率不高,一般为2:15:1;有损压缩则是以损失信息熵为代价,不能完全恢复原始数据,它利用人的视觉特性,使得压缩的图像看起来与原始图像相似,压缩率随着有关的编码方法不同而有较大的差异。,随着技术的发展,彩色图像或视频已得到了广泛应用。原始的彩色图像一般由红(R)、绿(G)、蓝(B)三种基色的图像组成。但是,人的视觉对彩色色度的感觉和对彩色亮度的敏感性是不同的,因此产生了不同的彩色空间表示。HSI彩色空间比R

    5、GB彩色空间更符合人的视觉特性,其中H为色调、S为饱和度、I为光的强度和亮度。不同的电视制式也采用了不同的彩色空间表示,常用的彩色图像表示方式有YIQ方式和YUV方式,这两种方式的一个共同点是用其中一个分量Y来表示像素的亮度,用其余两个分量来表示像素的色度。由于人的视觉对像素点的亮度分辨率较强,而对像素点的色度分辨率较弱,因此,这个特性对于图像压缩是很有用的,可以在编码时,对其中的亮度分量和色度分量分别处理,以求达到更高的压缩比。,彩色图像的数据量是相当大的,在实际应用中需要进行有效地压缩。压缩的方法可以采用前面已经讲述过的预测编码、变换编码等方法对其进行编码,以便有效地压缩其空域冗余信息。动

    6、态视频是由在时间轴方向上的一系列静止的图像组成的,每秒有25帧(或30帧),也就是说帧间间隔(即每幅图像之间的间隔)为1/25秒(或1/30秒)。若对帧间图像画面对应的位置像素的亮度信号或色度信号的差值作统计,可以发现这些差值一般都比较小,这也就是说明景物运动部分在画面上的位移量很小,而大多数像素点的亮度及色度信号帧间变化不大。根据电视图像帧间差值的统计特性,可以通过减少时域冗余信息的方法,运用帧间压缩技术,如运动估计和补偿等方法,进一步压缩电视视频信号数据。,二、静态图像压缩标准JPEG,对于静止图像压缩,ISO/IEC制订了JPEG标准(Joint Photographic Experts

    7、 Group)。 ISO/IEC 10918号标准“多灰度连续色调静态图像压缩编码”(即JPEG标准)选定ADCT作为静态图像压缩标准。这个标准适用于黑白及彩色照片、传真和印刷图片,但对二值图像则不适合。JPEG可以支持很高的图像分辨率和量化精度。,1、JPEG标准的主要内容 (1)两大类:第一类方式为以DCT为基础。DCT是一种包含有量化过程的不能完全复原的非可逆编码,它可用较少的变换系数来表示,逆变换后恢复的图像比较接近原始图像。第二类方式为以二维空间DPCM为基础。这种方式是一种可逆编码。 (2) 基于DCT工作方式的系统分类:基本系统 是实现DCT编解码所需的最小功能集,是必须保证的功

    8、能。其特点是:输入图像精度为8位/像素/色,顺序模型,Huffman编码(编码表DC/AC分别有两个)。扩展系统 是为了满足更广阔领域应用而设置的。其特点是:输入图像精度为12位/像素/色 ,累进模式, Huffman编码(编码表DC/AC分别有4个)和算术编码。独立功能 空间方式对于基本和扩展系统而言所具有的功能。其特点是:输入图像精度为212位/像素/色 ,序列模式, Huffman编码(编码表4个)和算术编码。,2、JPEG四种工作模式:无失真压缩:对图像从左到右、从上到下进行扫描,然后将得到的每个像素点信号进行编码压缩。DCT的顺序工作方式:对图像划分成88个数据块,以从左到右、从上到

    9、下顺序输入,并进行DCT正向变换和量化,然后对量化后的DCT系数进行图像的熵编码。DCT的累进工作方式:图像的88数据块的输入顺序与顺序工作方式相同,但对图像要采取多次扫描的方式,一般是将量化后的DCT系数先存入缓冲区中,然后这些系数在多次扫描的每一趟中部分进行编码输出。DCT的分层工作方式:图像被当成一个帧序列,这些帧以多种分辨率进行编码,按不同的应用要求获得不同的低分辨率图像,可重建恢复全图。,3、 JPEG编码方法JPEG标准采用混合编码方法。它定义了两种基本压缩算法:一种是基于空间线性预测技术,即差分脉冲编码调制的无失真压缩算法;另一种是基于DCT的有失真压缩算法,并进一步使用游程编码

    10、和熵编码。 (1)基于DPCM的无失真压缩编码基于DPCM的压缩算法的编码器框图如图2.28所示。对于中等复杂程度的彩色图像,采用这种算法所得到的压缩比可达到2:1。 DPCM编码在硬件上很容易实现,且其重建的图像质量也比较好。如图2.29给出了三个邻域取样值(a、b、c)的示意图。,(2)基于DCT的有失真压缩编码基于DCT的压缩编码算法体系包括基本系统和增强系统两个层次不同的系统,其中定义了顺序工作方式和累进工作方式。基本系统只采用顺序工作方式,进行熵编码时只能采用Huffman编码,且只能存储两套码表。而增强系统是基本系统的扩充,可采用累进式工作方式,在熵编码时可选用Huffman编码或

    11、自适应二进制算术编码。基于DCT编码的过程先通过离散余弦变换(DCT)去除数据冗余,再对DCT系数进行量化,然后对量化后的DCT系数中直流系数(DC)和交流系数(AC)分别进行差分编码或游程编码,最后再进行熵编码。编码的简化框图如图2.30所示。注意:图2.30中表示的是一个分量(如图像的灰度)图像的压缩编码过程,而对于彩色图像,则据此以多分量(亮度信号分量、色度信号分量等)分别进行处理。另外,解码过程是上述编码过程的逆过程。,基于DCT编码的系统结构功能图2.30中的编码器包括DCT变换器、量化器、熵编码器三个主要处理部分。JPEG先将源图像数据分成88大小的数据子块作为输入。DCT变换器则

    12、针对这些数据子块采用二维的离散余弦变换(DCT)算法进行变换;量化器对变换过的数据在保证一定质量的前提下,丢弃图像中对视觉效果影响不大的信息,采用线性均匀量化方式进行量化,得到有效的DCT系数;熵编码器对这些DCT系数中的DC系数和AC系数分别进行编码。由于相邻88数据子块之间的DC系数一般有很强的相关性,所以JPEG标准对DC系数采用DPCM编码方法,即对相邻像素块之间的系数的差值进行编码。其余63个交流分量(AC系数)则使用游程编码,从左上角开始沿对角线方向,以Z字形(Zig-Zag)进行扫描直至结束。为了进一步压缩数据,对DC码和AC游程编码的码字再做基于统计特性的熵编码(Huffman

    13、编码和自适应二进制算术编码),这样可以得到较高的压缩比。,JPEG算法步骤:JPEG压缩是有损压缩,它利用了人的视角系统的特性,使用量化和无损压缩编码相结合来去掉视角的冗余信息和数据本身的冗余信息。JPEG编码算法的主要步骤为:1)使用正向离散余弦变换(FDCT)把空间域表示的图像变换为频率域表示的图像;2)使用加权函数对FDCT系数进行量化,该加权函数对于人的视角系统是最佳的;3)对量化后的DCT系数进行Z字形编排,以增加连续0系数的个数,以便后面进行压缩编码;4)使用DPCM对DCT系数中的直流分量(DC)进行编码;5)使用游程编码(RLE)对系数的交流分量(AC)进行编码;6)使用熵编码

    14、(Huffman编码)再进行压缩编码,对于基于DCT压缩算法的简单而直观的认识,可把FDCT看作一个谐波分析仪,把IDCT(离散余弦反变换)看作是一个谐波合成器。88数据块输入分解成64个正交基信号,每个正交基信号对应于64个独立二维空间频率中的一个,这些空间频率是由输入信号的“频谱”组成。FDCT输出64个基信号的幅值称为“DCT系数”,即DCT变换系数。 64个变换系数中包括1个代表直流分量的“DC系数”和63个代表交流分量的“AC系数”。IDCT是FDCT的逆过程,它把64个DCT变换系数经逆变换后,重建一个64点的输出图像。,压缩比和图像质量针对基于DCT的JPEG压缩算法,在原始图像

    15、每像素采用8比特编码条件下,定量描述压缩比与恢复图像质量的关系,如表2.9所示。,基于DCT的增强系统基于上述DCT压缩编码算法的基本系统在整个编码过程中采用从上到下、从左到右的顺序扫描工作方式一次完成。而基于DCT的增强系统则增加了两种累进工作方式,累进工作方式在编码步骤和方法上与顺序工作方式是基本一致的,所不同之处就在于累进工作方式中每个图像分量的编码需经过多次扫描完成。第一次扫描只进行一次粗糙的压缩,然后根据这些压缩的数据先重建一幅质量较低的图像,以后的扫描再做较细的压缩,使重建的图像质量不断提高,直到满意为止。因此,为实现这种方式,需要在图2.30的量化器和熵编码器之间增加一个存储量化

    16、后的DCT系数的缓冲区,使得系数进行多次扫描,分批完成熵压缩编码。 在增强系统中,两种累进工作方式分别是:按频段累进和按位逼近。,基于DCT的分层工作方式 分层工作方式是对一幅原始图像的空间分辨率进行变换,使得水平方向和垂直方向上的分辨率以2的倍数因子下降,分层后再进行编码。其编码过程为:原始图像的空间分辨率逐级降低,得到一组分辨率由低到高的图像;把分辨率最低的图像采用JPEG的任一种编码方法进行压缩编码;对低分辨率图像进行解码、重建,然后用插值的方法提高其分辨率,作为高一级分辨率原始图像的预测值;求出预测图像与原始图像的差值图像,对差值图像进行基于DCT的编码;重复3、4步骤,直到达到原始图

    17、像的最高分辨率为止。,JBIG标准 国际标准化组织(ISO)针对二值图像制订了JBIG(Joint Bilevel Image Group)压缩标准。JBIG标准可以支持很高的图像分辨率,常用的文件格式为17282376或23042896。 JBIG采用累进工作方式和无损压缩技术,其压缩率比目前的传真标准(CCITT G3、G4标准)高得多。JBIG的编码器可分解为D个相同的差分层编码器串联,最后一个是底层编码器,其中D是累进参数,可任意选择,一般为4到6。当D0时,JBIG进行非累进图像压缩。差分层编码器和底层编码器的核心是一个自适应算术编码器。在差分层编码器中还含有把分辨率降低一半的功能。

    18、JBIG的解码过程与编码过程正好相反。JBIG的压缩率可达10:1。虽然JBIG是二值图像的编码标准,但也可对含灰度值的图像或彩色图像进行无失真压缩,这时,JBIG需要对图像的每个比特面做压缩变换。,JPEG2000简介 2000年12月公布了新的JPEG2000标准(ISO 15444),其目标就是在高压缩比的情况下,如何保证图像传输的质量。JPEG采用DCT变换为主的分块编码方式,DCT变换考察整个时域过程的频域特征或整个频域过程的时域特征。而JPEG2000则采用了以小波变换为主的多分辨率编码方式。小波变换对时域的考察是局部的,在信号分析中,小波对高频成分采取由粗到细渐进的时空域上的采样

    19、间隔,故能够像自动调焦一样看清远近不同的景物,并放大任意细节,是构造图像多分辨率的有效方法。JPEG2000统一了面向静态图像和二值图像的编码方式,是既支持低压缩比又支持高压缩比的通用编码方式,其特点有:高压缩率 JPEG和JPEG2000在压缩率相同的情况下,JPEG2000的信噪比将提高30左右。,无损压缩 预测编码作为图像进行无损编码的成熟方法被集成在JPEG2000中,使它能实现无损压缩。渐进传输 JPEG2000可实现以空间清晰度和信噪比为首的各种可调性,从而实现渐进传输。即先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰的显示,而不像JPEG那样由上到下慢慢

    20、显示图像,这种“渐现”特性是JPEG2000一个极其重要的特性。感兴趣区域压缩 所谓“感兴趣区域”,是指可以任意指定图像上感兴趣区域的压缩质量,还可以选择指定的部分先解压缩。这样就可以很方便地对图像感兴趣的部分采用低压缩比以得到较好的压缩效果,而对其他部分则采用高压缩比以节省存储空间。从多方测试结果看,JPEG2000的压缩效果非常优秀,而且质量得到保证,特别是在高压缩比的场合表现更加突出。JPEG2000纠错能力很强,可以指定最后文件大小,这适合目前带宽受限的Web系统和无线网络传输图像,应用前景广阔。,1、MPEG标准简介MPEG标准是面向运动图像压缩的一个系列标准。最初MPEG专家组的工

    21、作项目是3个,即在1.5Mbps、10Mbps、40Mbps传输速率下对图像编码,分别命名为MPEG1、MPEG2、MPEG3。1992年,MPEG2的适用范围扩大到HDTV,能够实现MPEG3的所有功能,故MPEG3被取消。同时为了满足不同应用的需要,MPEG又陆续增加了一些标准,如MPEG4、 MPEG7、 MPEG21。(1)MPEG1标准其标准名称为“用于大约高达1.5Mbps速率的数字存储媒体的运动图像及其伴音编码”,作为ISO/IEC 11172号建议于1992年通过。该标准分4个部分:MPEG1系统(111721),定义音频、视频及有关数据的同步;,三、运动图像压缩标准MPEG,

    22、MPEG1 视频(111722),定义视频数据的编码和重建图像所需的解码过程,其处理的是SIF格式,即NTSC制式为352像素240行/帧30帧/秒,PAL制式为352像素288行/帧25帧/秒; MPEG1 音频(111723),定义音频数据的编码和解码;一致性测试(111724)。另外MPEG1标准还提供了软件模拟的技术报告(111725),(2)MPEG2标准MPEG2标准名为“运动图像及其伴音信息的通用编码”,作为ISO/IEC 13818号建议于1994年通过。该标准分10个部分: MPEG2系统(138181),定义音频、视频及有关数据的同步; MPEG2视频(138182),规定

    23、视频数据的编码和解码,支持多种格式; MPEG2音频(138183),规定音频数据的编解码; MPEG2一致性测试(138184);MPEG2软件模拟(138185);MPEG2数字存储媒体命令和控制(DSMCC)扩展协议(138186),用于管理MPEG1 和MPEG2的数据流,使数据流既可在单机上运行,又可在异构网络环境下运行 ;,MPEG2高级声音编码(AAC,138187),是多声道声音编码算法标准,该标准除了向后兼容MPEG1音频标准外,还又非向后兼容的声音标准;MPEG2系统解码器实时接口扩展标准(138189),它用于适应来自网络的传输数据流;MPEG2 DSMCC一致性测试(1

    24、381810);MPEG2高级声音编码标准修订版。至于MPEG2 Part8(138188)原计划用于采样精度为10B的视频图像编码,但由于工业界兴趣不大而暂停开发。,(2)MPEG4标准MPEG4标准名为“甚低速率视听编码”,作为ISO/IEC 14496号标准草案发布于1998年。该标准分5个部分: MPEG4系统(144961); MPEG4视频(144962); MPEG4音频(144963); MPEG4一致性测试(144964);MPEG4参考软件(138185);MPEG4传输多媒体集成框架(DMIF)。下面,我们将简要介绍MPEG1、 MPEG2的主要内容,对于MPEG4也将简

    25、要介绍部分内容。,2、MPEG1标准数字视频压缩编码标准MPEG1(ISO/IEC 11172)是以大约1.5Mbps的速率传输电视质量的视频信号,亮度信号的分辨率为360240,色度信号的分辨率为180120,每秒30帧。这个标准也适合于CDROM、DAT、硬盘、可写光盘等数字存储介质,可在N-ISDN、LAN等通信网络上传输。MPEG1标准没有规定编码器和解码器的体系结构或实现方法,只是提出了功能和性能上的要求。一个典型的MPEG-1编解码器的原型如图2.31所示。MPEG1有三个组成部分:MPEG视频、MPEG音频和MPEG系统。所以,MPEG1涉及的问题主要是视频压缩、音频压缩以及多种

    26、压缩数据流的复合和同步的问题。,(1)MPEG-1音频标准有如下特点:音频信号采样率可以是32KHz、44.1KHz或48KHz;压缩后的比特流可以按4种模式之一支持单或双声道;压缩后的比特流具有预定义的比特率之一,也支持用户使用预定义的比特率之外的比特率。MPEG-1音频标准提供3个独立的压缩层次,用户可在复杂性和压缩质量之间进行选择。这3个层次是:.层1 最简单,使用自适应掩蔽模式的通用子带综合编码和复合技术(MUSICAM)算法,编码速率为384Kbps,主要用于数字盒式磁带DCC。.层2 复杂度中等,使用MUSICAM算法,编码速率为192Kbps,主要应用于数字广播的音频编码、CD-

    27、ROM上的音频信号以及CD-I和VCD。.层3 最复杂,使用高质量音乐信号自适应感知熵编码算法(APSEC),编码速率为64Kbps,尤其适用于IDSN上的音频传输。编码后的比特流支持循环冗余校验CRC。支持在比特流中载带附加信息。,(2)MPEG-1视频标准视频数据流结构MPEG-1视频比特流的层次结构定义如图2.35所示。,块,块,画面组,运动画面序列,运动序列 就是一个运动画面视频比特流。图中运动画面 序列包括一个表头、一组或多组画面以及序列的结束标志码。 画面组(GOP,Group Of Picture) 是由一系列画面(图像)组成,这些画面可从运动序列中随机存取,长度可各不相同,但第

    28、一帧必为 I 画面。,块,块,画面组,运动画面序列,画面图像 是运动序列中最原始的编码单位。一个画面可由一个亮度信号Y和两个色度信号U、V组成。 画面切片 由一个或多个位置连续的宏块组成,宏块在画面切片中的次序是由左到右、自上而下的。 块 一个块由一个88的亮度信息或一个88的色度信息组成。,宏块 一个宏块由一个1616的亮度信息和两个88的色度信息组成,其标题中包含宏块类型码、运动矢量、码块图等。图2.36表明了宏块的组成图,图中的一个宏块包括4个亮度块,两个色度块(一个U块,一个V块),图中的数字表明其中数据流的次序。,视频编码技术MPEG-1视频压缩编码技术是以基于1616子块的运动补偿

    29、和基于DCT为基础的,基于1616子块的运动补偿技术可以减少帧序列的时间冗余度,而基于DCT技术则用于减少空域冗余度。在MPEG1中不仅在帧内使用DCT,而且对帧间预测误差也做DCT,以进一步减少数据量,达到压缩数据的目的。MPEG标准的平均压缩比可达50:1。 MPEG1视频压缩编码与图像重建的原理框图如图2.31所示。画面的格式(三类) 一是帧内画面(I),即I画面(Intra Picture),是不需要参考其他画面、能独立地以静止图像压缩方法处理的画面,I画面必须进行传送;通常对于I画面是利用其自身的相关性进行压缩的,它提供了压缩数据流中的随机存取的点,采用基于ADCT的编码技术,压缩后

    30、的每个像素点为12比特。,二是预测画面(P),即P画面(Predicted Picture),是用最近的前一个I图像(或P图像)预测编码得到(前向预测),也可以作为下一次预测的参照画面,对预测的误差要做有条件的传送;三是插补画面(B),即B画面(Bidirectional Picture),是既参考前面的I画面或P画面信息,又参考后面的I画面或P画面信息来进行双向预测和插补编码(运动补偿)的画面,故也称双向预测画面。,预测方法和编码技术种类(如图2.33所示)即帧内编码、前向预测、后向编码、双向预测4种技术。I画面仅作帧内图像压缩编码,类似于JPEG,只能进行中等程度的压缩;而P画面仅作正向(

    31、前向)帧间预测,并可作为下一个预测(B画面或P画面)的参考画面;B画面则用作双向帧间预测和插补,其本身不被用作其他预测的基准;P画面和B画面应进行运动估计,求出12个运动矢量;且P画面和B画面采用帧间预测编码,被编码的是差分图像。另外,还有D画面(DC coefficientpicture),它仅使用自身的信息(DC系数)进行编码,用作正向快速搜索的画面。,运动补偿技术MPEG1采用运动补偿技术主要目的是去除画面序列(P画面和B画面)在时间上的冗余度,以提高压缩效率。运动补偿是以宏块为单位进行的,包括预测和插补两种算法。运动补偿预测法动态视频的运动部分在画面与画面(即帧与帧)之间必然有连续性,

    32、根据这一特性,可以将当前的图像画面视为前面某一时刻图像的位移,位移的幅度和方向在图像画面的各处可以不同,因此,利用反映运动的位移信息和前面某时刻的图像信息,就可以预测当前所要表示的图像,这就是预测法的基本思想。,在MPEG1方案中,运动补偿技术在宏块一级工作。对于B图像,每1616的宏块有4种类型:帧内宏块(I块)、前向预测宏块(F块)、后向预测宏块(B块)和平均宏块(A块)。对于P图像,其宏块只有I块和F块两种。无论B图像或者P图像,I块处理技术都与I图像中所采用的技术一致,即ADCT技术。对于F块、B块和A块,MPEG都采用基于块的运动补偿技术。F块预测时其参照为前一个I 图像或P图像;B

    33、块预测时,其参照为后一个I图像或P图像;对于A块的预测,其参照为前后两个I 图像或P图像。基于块的运动补偿技术,就是在其参照帧中寻找符合一定条件限制、当前被预测块的最佳匹配块。找到匹配块后,有两种处理方法:一是在恢复被预测块时,用匹配块代替;二是对预测的误差采用ADCT技术编码,在恢复被预测块时,用匹配块加上预测误差。,每个包含运动信息的1616宏块,相对于前面相邻的运动信息作差分编码,得到运动差值,运动差值信号除了物体边缘处外,其他部分均很小。对于运动差值信息再使用变长码进行编码,可达到进一步压缩的目的。,运动补偿插补法在时间轴上以1/10秒或1/15秒的时间间隔取出参考子图,然后在两个参考

    34、子图之间,按运动的规律插补1/30秒时间间隔的各个子图。这样通过对参考子图以及少量反映运动规律的附加校正信息进行编码,就可以得到帧率为30帧/秒的全运动视频图像。运动补偿插补又称双向预测,它既可利用前面图的信息,又可利用后面图的信息。由于视频信号时域(帧间)冗余度很高,需要传送的附加运动校正信息非常少,因此,以插补方法补偿运动信息,可大幅度地提高视频压缩比。 MPEG1视频编解码系统MPEG1视频编码系统如图2.34所示。MPEG1视频解码系统如图2.37所示。,3、MPEG2标准为了满足高比特率、高质量的视频应用,MPEG于1994年发布了MPEG2标准(ITU-T H.262标准)。 与M

    35、PEG1相比, MPEG2可支持交迭图像序列(即每帧图像由交替的两个场组成),支持可调节性编码,并且具有其他许多先进的选择、多种运动估计方式和两种扫描方式,因而获得了更好的压缩效率和图像质量。 (1) MPEG2视频技术规范MPEG-2的技术规范按压缩编码方法的复杂程度可分成五类:简单型(Simple):它使用I、P画面,色差信号格式为4:2:0(即MPEG-1的Y:U:V4:1:1);基本型(Main):它没有可分级性,质量要尽量好,使用I、P、B画面,色差信号格式为4:2:0;,信噪比/空间可调型(SNR/Spatial):按信噪比可分级,它使用I、P、B画面,色差信号格式为4:2:0;高

    36、型(Spatially scalable):它按空间分辨率可分级,使用I、P、B画面,色差信号格式为4:2:2;增强型(High):它支持4:2:2及全部分级性,使用I、P、B画面,色差信号格式为4:2:2。如果按源图像分辨率的高低程度来分,则MPEG2的技术规范又可分成四级:高级(High):其分辨率为1920115260,采用HDTV宽屏格式;高级1440(High1440):其分辨率为1440115260,采用HDTV窄屏格式;基本级(Main):其分辨率为72057630,采用CCIR 601格式;低级(Low):其分辨率为35228830,采用CCITT H.261建议的CIF格式,

    37、为了保证与MPEG1向下兼容及广播、通信、计算机、家用视听设备的需求,MPEG2视频定义了11种技术规范:、高级的基本型 MPHL、高级的增强型 HPHL、高1440级的基本型 MPH1440、高1440级的空间可调型 SSPH1440 、高1440级的增强型 HPH1440、基本级的简单型 SPML、基本级的基本型 MPML、基本级的信噪比可调型 SNPML、基本级的增强型 HPML、低级的基本型 MPLL、 低级的信噪比可调型 SNPLL,在这些技术规范中,MPML(基本级的基本型,Main Profile at Main Level的)码率为515Mb/s,其用途最广,如DVD、150路

    38、卫星电视直播、540路CATV等。MPLL(低级的基本型,Main Profile at Low Level)的速率为1.24Mb/s,替代了MPEG1,适合于交互式多媒体应用。SPML(基本级的简单型,Simple Profile at Main Level)的速率为15Mb/s,用于机顶盒解码器(成本低,且不用B画面)、家庭数字VCR等。4:2:2的速率为50Mb/s,适合于演播室质量的图像。HPHL高型(High Profile)的速率为80Mb/s,目标是应用于HDTV领域。,(2) MPEG2的技术特点 主要有以下方面:.真正的国际标准,保持了向下兼容性及互操作性;.支持隔行/逐行扫

    39、描的视频信号;.利用运动矢量进行预测的情况更加多样;.音频信息处理功能更强(8个声道、环绕立体声、多种取样频率);.是可伸缩的(scalable),提供了很大的应用范围。尤其是高型,使用分层编码、可伸缩解码,适用于HDTV领域;.是可传输的(transportable),包含了各种有力的数据移动机制(data movement mechanisms),数据流结构更适合于在ATM数据网上传输和分发。MPEG2由于上述技术特点,已成为通用的视频编码标准,并已成为从通信、广播到计算机、家用娱乐电子产品(如视频放录、视频游戏、家庭数字电影等)的全屏幕、高质量数字视频的共同关键技术,极大地促进了计算机、

    40、广播电视、数字通信三大领域的交汇融合,已经并正在发挥出巨大的作用。,(3) MPEG2的音频标准 MPEG2的音频标准与MPEG1兼容,都使用相同的编解码器,层1、层2、层3的结构相同。MPEG2的音频对MPEG1进行了扩充:增加了16KHz、 22.05KHz和24KHz的采样率;扩展了编码器的输出速率范围,由32384Kbps扩展到8640Kbps;增加了声道数,支持5.1到7.1通道的环绕立体声。5.1也称为“3/2立体声加LFE”,它的含义是播音现场的前面可有3个喇叭声道(左、中、右),后面可有2个环绕声喇叭声道。LFE(Low Frequency Effects)是低频声效的加强声道

    41、。而7.1通道环绕立体声与5.1相似,它另有中左、中右两个喇叭声道。,MPEG2支持线性PCM和Doly AC3(Audio Code number 3)编码。 Doly AC3支持5个声道(左、中、右、左环绕、右环绕)和0.1KHz以下的低音音效声道,声音样本精度为20位,每个声音的采样率可以是32KHz、 44.1KHz 或 48KHz,最大声音速率为448Kbps。线性PCM可支持8个声道,声音样本精度为16/20/24位,每个声音的采样率可以是48KHz或96KHz,最大声音速率为6.144Mbps。MPEG2还定义了与MPEG1音频格式不兼容的MPEG2 AAC(Advanced A

    42、udio Coding),它是一种非常灵活的声音感知编码标准,支持的采样频率可从8KHz到96KHz,可支持48个主声道、16个配音声道(多语言声道)和16个数据流。它的压缩率提高了,而且质量更好。,(4) MPEG2的编码方法 MPEG2的编码方法与MPEG1的编码方法的区别主要是在隔行扫描制式下,DCT变换是在场内还是帧内进行由用户自行选择。一般情况下,对细节多、运动部分少的图像在帧内进行DCT,而细节少、运动分量多的图像在场内进行DCT。其亮度宏块结构采用如图所示的方法构成。MPEG2采用可调型和非可调型两种编码结构,且采用两层等级编码方式。当然还可以使用一个基本层加上多个增强型的多层编

    43、码结构,这由用户按质量和压缩比要求选择。如图所示为空间可调型MPEG2编码器的原理框图。MPEG算法编码过程和解码过程是一种非镜像对称算法,即运动图像的压缩编码过程与还原解码过程是不对称算法,解码过程要比编码过程简单。 MPEG1 和MPEG2只规定了解码方案,重点将解码算法标准化。因此,用硬件实现MPEG算法时,人们首先实现MPEG解码器,最近,随着MPC性能的提高,软件解压功能也逐渐得到支持。,4、MPEG4和MPEG7标准 (1) MPEG4标准 主要内容MPEG4即“甚低速率视听编码”标准第1版于1998年11月公布,1999年12月公布了第2版。它是针对低速率(164Kbps)下的视

    44、频、音频编码和交互播放开发的算法和工具,其显著特点是基于内容的编码,更加注重多媒体系统的交互性、互操作性和灵活性。MPEG4采用了基于对象表示的概念,引入了视听对象(audio objects,AVO),使得更多的交互操作成为可能:AVO可以是一个孤立的人物,也可以是这个人物的语音或一段背景音乐等。它具有高效编码、高效存储与传播及可交互操作的特性。MPEG4对AVO的主要操作有:采用AVO来表示听觉、视觉或者视听组合内容;组合已有AVO来生成复合的AVO,并生成视听场景;对AVO的数据灵活地多路合成与同步,以便选择合适的网络来传输这些AVO数据;允许接受端的用户在视听场景中对AVO进行交互操作

    45、等。,MPEG4标准的构成) 传输多媒体集成框架(Delivery Multimedia Integration Framework,DMIF)场景描述)音频编码 MPEG4不仅支持自然声音,而且支持合成声音。MPEG4的音频部分将音频的合成编码和自然声音的编码相结合,并支持音频的对象特征。MPEG4的译码器还支持MIDI合成音乐和文本到语音(TTS)的转换。)视频编码 与音频编码类似,MPEG4也支持对自然和合成的视觉对象的编码。合成的视觉对象包括二维、三维动画和人面部表情动画等。,MPEG4视频编码技术MPEG4对每个视频对象的形状、运动和纹理信息进行编码形成单独的视频对象,以便能够单独对

    46、视频对象进行解码。 MPEG4视频标准对每个视频对象区(Video Object Plane,VOP)进行编码,VOP是某一时刻某一帧画面中的VO。VOP编码就是对该帧画面VO的形状、运动和纹理进行编码,使用的压缩编码算法是在MPEG1和MPEG2视频标准的基础上开发的,它也是以图像块为基础的混合DPCM和变换编码技术。如果输入图像序列中只包含标准的矩形图像,就不需要形状编码,在这种情况下,MPEG4视频使用的编码算法结构也就与MPEG1和MPEG2使用的算法结构相同。MPEG4编码算法也定义了帧内VOP编码方式和帧内VOP预测编码方式,也支持双向预测VOP编码方式。在对视频对象区的形状编码之

    47、后,颜色图像序列分割成宏块进行编码。MPEG4采用基于内容的编码方法的一个重要优点是,使用合适的和专门的基于对象的预测工具可以明显提高场景中某些视频对象的压缩效率。, MPEG4的应用 与MPEG1和MPEG2相比,MPEG4更适于交互视听服务,它的设计目标使其具有更广的适应性和可扩展性:MPEG4传输速率在4.864Kbps之间,分辨率为176144,可以利用很窄的带宽通过帧重建技术压缩和传输数据,从而能以最少的数据获得最佳的图像质量。MPEG4将应用在数字电视、交互式图形应用、实时多媒体监控、移动多媒体通信、Internet/Intranet上的视频流传输、可视游戏、交互多媒体服务等方面。

    48、,MPEG4能以能低的速率基本实现DVD的质量:用MPEG4压缩算法的ASF(Advanced Streaming Format)可以将120分钟的电影压缩为300MB左右的视频流;采用MPEG4压缩算法的DIVX编码技术可以将120分钟的电影压缩600MB左右,也可以将一部DVD影片压缩到2张CDROM上。MPEG4属于一种高比率有损压缩算法,其图像质量始终无法和DVD的MPEG2相比,毕竟DVD的存储容量很大。要想保证高速运动的图像不失真,必须有足够的码率。目前,MPEG4的码率虽可调到和DVD差不多,但总体效果还有不小差距。因此,对图像质量要求较高的专业视频领域暂时还不能采用MPEG4。

    49、,(2) MPEG7标准MPEG-7的全称为“多媒体信息内容的描述接口”(Multimedia Content Description Interface)。MPEG-7将对所有不同类型的多媒体信息做接口的描述,这些描述将与信息本身的内容有关。它将集中于多媒体信息的表示(描述)方法的标准化上,而对于音频信息的描述(或表示)的形成则由生产及销售产品的厂家完成。MPEG-7是为了满足特定要求的用于表示视听信息的标准。MPEG-7构建于其他标准之上,这些标准包括模拟的、PCM抽样的MPEG-1、MPEG-2和MPEG-4,它采用基于对象的编码方法。主要可能应用的领域包括:数字化图书馆(图像库、音乐字典等)、多媒体目录服务、广播式媒体选择(广播和电视频道选择)、多媒体编辑(电子新闻)等。,

    展开阅读全文
    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第二章多媒体信息处理(4).ppt
    链接地址:https://www.docduoduo.com/p-9242136.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开