收藏 分享(赏)

多媒体通信技术第2章多媒体信息编码.ppt

上传人:scg750829 文档编号:8451206 上传时间:2019-06-28 格式:PPT 页数:75 大小:980.50KB
下载 相关 举报
多媒体通信技术第2章多媒体信息编码.ppt_第1页
第1页 / 共75页
多媒体通信技术第2章多媒体信息编码.ppt_第2页
第2页 / 共75页
多媒体通信技术第2章多媒体信息编码.ppt_第3页
第3页 / 共75页
多媒体通信技术第2章多媒体信息编码.ppt_第4页
第4页 / 共75页
多媒体通信技术第2章多媒体信息编码.ppt_第5页
第5页 / 共75页
点击查看更多>>
资源描述

1、第2章 多媒体信息编码,2.1 引言 2.2 基本编码方法 2.3 图像编码标准 2.4 语音编码标准,2.1 引 言,表2.1 连续媒体数据类型特征举例,数据压缩处理一般由两个过程组成: 一是编码过程, 即对原始数据进行编码压缩, 以便存储和传输; 二是解码过程, 即对压缩的数据进行解压, 恢复成可用的数据。根据解压后数据的保真度, 数据压缩技术可分为无损压缩编码和有损压缩编码两大类。 无损压缩编码是指解码后的数据与原始数据完全相同, 无任何偏差。这种编码通常基于信息熵原理, 常用的编码有哈夫曼编码、 算术编码、 行程编码等。它的压缩能力与所处理数据的类型有关, 压缩比通常比较低, 一般在2

2、151。主要用于要求数据无损压缩存储和传输的场合, 如传真机、文本文件传输等。,有损压缩编码是指解码后的数据与原始数据相比有一定的偏差, 但仍可保持一定的视听质量和效果。 它主要利用人的视、听觉特性, 在保持一定保真度下对数据进行压缩, 其压缩比可达1001。 压缩比愈高, 其解压缩后的视、 音频质量就愈低。 这种编码方法有很多种, 如基于线性预测原理的预测编码、基于正交变换原理的正交变换编码、基于向量量化原理的向量量化编码、基于分层处理的分层编码以及基于频带分割原理的子带编码等。主要用于对音频和视频数据的压缩。,多媒体信息编码技术主要侧重于有损压缩编码的研究。 经过多年的研究与开发, 已经出

3、台了一系列有关的国际标准。其中, 最著名的是国际标准组织(ISO)制定的JPEG和MPEG。JPEG是静止图像的压缩标准, 其压缩比可达401。 MPEG(MPEG-1、 MPEG-2及MPEG-4)是动态图像的压缩标准, 采用MPEG-2标准对NTSC质量视频进行压缩后, 网络带宽需求可降低到3.36 Mb/s。 其它的标准还有国际电信联合会(ITU)制定的用于可视电话、 会议电视的H.261和H.263; 用于音频的G.711、 G.721、 G.728等。,2.2 基本编码方法,2.2.1 行程编码行程编码是一种简单的无损压缩编码方法, 它通过压缩原始数据中相同的字节序列实现数据压缩。在

4、图像和声音数据中可能包含大量的相同字节连续重复的序列, 通过行程编码可以将这些重复字节压缩掉, 取而代之的是一个更加紧密的字节序列。 例如, 一个原始数据字符串为RTTTTTTTTABBCDGHJK, 采用行程编码后的字符串为R8TABBCDGHJK, 这里用8T替换掉8个T字符, 符号“”是特殊标识符, 用于表示行程编码。 如果原始数据字符串也包含了“” 符号, 则必须用两个“” 符号替换掉原始数据字符串中的“” 符号。,2.2.2 哈夫曼编码哈夫曼(Huffman)编码是一种无损压缩编码方法, 它根据信源符号出现的概率大小进行排序, 出现的概率大的符号分配短码, 反之分配长码。 在分配代码

5、过程中, 需要建立一个n阶二叉树, 其编码过程如下: 对信源符号按其出现的概率进行递减排序; 将两个最小的概率相加, 其和作为新符号的概率; 重复和, 直到概率之和达到1为止; 每次合并消息时, 将被合并的消息赋予1和0或者0和1; 寻找从每个信源符号到概率为1处的路径, 记录下路径上的1和0; 从树根节点到叶子节点, 对每个信源符号列出0、 1序列。,例如, A、B、C、D四个字符出现的概率分别为: P(A)=3/4; P(B)=1/8; P(C)=1/16; P(D)=1/16, 按照上述编码过程将生成如图2.1所示的二叉树, 获得的编码结果是: H(A)=1; H(B)=01; H(C)

6、=001; H(D)=000, 该结果存放在哈夫曼表中。,2.2.3 离散余弦变换编码,变换编码主要有离散傅立叶变换(DFT)编码、 离散余弦变换(DCT)编码等。其中, DCT编码方法被普遍使用, 在JPEG、 MPEG和H.261等标准中都采用了DCT编码。 由于声音信号只有一个时间维, 因此音频信号压缩采用一维DCT编码, 而图像压缩必须考虑水平和垂直两个方向, 因此图像压缩则采用二维DCT编码。,DCT编码方法是对一个88图像块灰度样本数据流进行压缩, 而彩色图像压缩可看成是压缩图像的多个分量。在编码器中, 首先将源图像88样本数据块(像素块)的取值范围由0, 2p-1(无符号)转换成

7、-2p-1, 2p-1-1(有符号), 其中p为样本定义的精度。 然后对88样本数据块进行正向离散余弦变换(FDCT)。在解码器中, 利用逆向离散余弦变换(IDCT)重建88样本数据块, 恢复图像。 FDCT和IDCT的数学表达式如(1)式和(2)式所示:,式中:,u,v=00 其它,源图像88样本数据块实质上是64点离散信号(空间范围x和y的函数), FDCT将其变换成64个正交基信号, FDCT的输出是64个DCT系数(即基信号振幅)。 在x、 y两个方向频率都为零的系数叫直流系数(DC), 其余63个系数是交流系数(AC)。 由于图像帧上点与点之间的样本值变化比较缓慢, 大多数信号集中在

8、低频区。,2.2.4 差分脉冲编码调制,图 2.2 DPCM编解码器原理框图 (a) DPCM编码器; (b) DPCM解码器,2.2.5 运动补偿预测编码,运动补偿预测编码是一种主要用于动态图像的压缩的预测编码。动态图像是由一系列视频帧组成, 帧与帧之间可能存在着瞬时冗余, 这种瞬时冗余主要是由静态背景前的运动物体或摄像机的移动引起的。运动补偿预测编码主要通过帧间编码来压缩时间冗余信息。 其基本原理如下: 在视频帧序列中设置参照帧, 且第1帧总是参照帧。 对于当前的编码帧, 首先在该帧的前帧和/或后帧(参照帧)中寻找与该帧的一个图像块相匹配的图像块。, 如果找到这样的块, 则进行下列计算:

9、当前块的块亮度值与参照帧中对应块(称参照块)的块亮度值之间的差值信号(DPCM码); 当前块相对于参照块在x和y两个方向上的运动向量值, 表示该块在x和y方向上的平移。 通过定义一个搜索域来限制x和y方向上的搜索范围, 以降低运动信息的开销; 用差值信号和运动向量值来表示参照块与所预测块之间的误差, 称为预测误差。 这时, 只需对当前块的运动向量值和预测误差进行编码, 不必对当前块的图像进行编码, 以压缩时间冗余信息。, 如果找不到这样的块, 则必须进行帧内编码, 即对当前块的图像进行编码。 运动补偿预测编码可分成下列三种方式: 单向运动补偿预测: 只使用前参照帧或后参照帧之一进行预测。 双向

10、运动补偿预测: 使用前、 后两个帧作为参照帧来计算各块的运动向量, 最后只 选择具有最小匹配误差的参照帧相关的运动向量值。 插值运动补偿预测: 使用前参照帧和后参照帧两者预测值的平均值。这时, 必须分别存储和传输这两个运动向量。,2.3 图像编码标准,2.3.1 JPEG标准JPEG(Joint Photographic Experts Group)是ISO为制定有关静态图像压缩标准而成立的一个专家组, 现已公布了JPEG标准, 标准号为ISO CD10918。 JPEG作为一种静态图像压缩编码的国际标准, 在实际中得到广泛的应用。 JPEG图像压缩技术具有如下特点: 能够大范围地调节图像压缩

11、率及其相应的图像保真度, 解码器可参数化。使用户在具体应用时可以选择所期望的压缩率/质量比。, 能够应用于任何连续色调数字源图像(实际应用中可能遇到的图像有很多种, 故不限制图像的尺寸、 色彩级差、 像素长宽比等条件), 不限制图像的景象内容(如复杂性、色彩范围或统计特性)。 能够在具有一定能力的CPU上实现所要求的功能, 以利于操纵复杂的计算软件, 并用可接受的硬件成本实现具有高性能要求的应用。, 规定了4种运行模式, 以满足各种需要: 顺序编码: 按从左到右、 从上到下的顺序对图像进行扫描和编码。 这种模式是基准模式, 各种JPEG实现都要支持这种模式。 递增编码: 对于变换时间较长的扫描

12、器, 按由粗到细的过程, 以复合扫描顺序进行图像编码。 无损编码: 保证准确地恢复图像所有样本值的图像编码。 与有损模式相比, 其压缩比低。 分层编码: 以多种分辨率进行图像编码, 可直接获得低分辨率图像, 重建复原全图。,1. JPEG图像模型JPEG标准采用一种通用的图像模型, 能够适用大多数常用的二维图像格式。这种图像模型是从各种图像格式和应用中抽象出来的, 而且只包括那些压缩和重构数字图像所必需的数据。 JPEG压缩数据格式没有提供关于表示完整图像的编码信息。例如, JPEG没有定义和编码任何有关像素尺寸比、色彩间隔和图像获取特点等信息。 通常, JPEG的一帧源图像包含有1255个图

13、像成分, 称为颜色平面或组元。每个组元是一个样本点矩阵, 样本定义的精度为p位, 取值范围是0, 2p-1, 所有成分的所有样本点精度都是同一个p。对基于DCT的Codec, p取8或12; 对基于DPCM的Codec, p取216。,每个平面沿水平和垂直方向的像素数可能是不同的, 但必须使用同样多的位数对所有平面的所有像素进行编码。例如, 颜色平面可以分配给RGB(红、 绿、 蓝)三色, 也可以分配给YUV(一个亮度和两个色度), 各种模型都定义自己的精度。 灰度图一般由一个组元构成; GB彩图有三个等分辨率的组元; YUV彩图通常对图的色度组元衰减采样, 以减少存储量。 例如, 采用411

14、形式, 色度的水平和垂直分辨率组元只是亮度的一半。 这主要基于如下事实: 人的视觉对亮度组元十分敏感, 对色度组元的敏感性较低。,图2.3 像素块和“之”字形处理顺序 (a) 8像素块; (b) “之”字形顺序,2. JPEG编码方法,图2.4 DCT编码和解码过程 (a)DCT编码过程; (b) DCT解码过程,在编码器中, 首先由FDCT对源图像88样本数据块进行正向离散余弦变换, FDCT将输出64个DCT系数, 其中1个是直流系数(DC), 其余63个是交流系数(AC)。 量化器对FDCT输出的每个DCT系数进行量化处理。量化的目的是去除那些无显著视觉意义的高频信息。在量化时, 每个D

15、CT系数与量化表中的64个元素进行舍取运算。量化表是由开发者指定并输入到编码器中。 量化计算公式如下:,经过量化处理后, DC系数从63个AC系数中分离出来进行单独处理, 因为DC系数代表了相当一部分图像信息。所有的量化系数按“之”字形顺序排列, 低频系数将排在高频系数之前, 以利于实现熵编码。 在熵编码处理之前, 先对DC系数进行DPCM编码, 对AC系数进行行程编码。由于大多数AC系数都为零, 只有少数不为零, 行程编码将压缩AC系数中零值序列, 对非零系数进行有效编码。 行程编码分为两步处理: 先将量化的DCT系数转换成中间符号序列, 再向符号分配可变长代码。,中间符号序列是一种双符号序

16、列。 对于AC系数, 符号1表示两部分信息: 行程和位长, 行程取值为015, 位长取值010; 符号2表示振幅信息, 即非零系数大小。对于DC系数, 符号1表示位长信息, 符号2表示振幅信息。由于DC系数有别于AC系数, 故它的符号1取值范围是111。为其分配的代码是可变长的, 以便于使用熵编码进行压缩处理。 熵编码是按DCT系数的统计特征对量化系数进一步编码, 实现无损压缩。JPEG规定了两种熵编码方法: 哈夫曼编码和算术编码。 对于哈夫曼编码所需的哈夫曼表, JPEG标准没有作具体规定, 这由开发者根据应用需要来决定。,JPEG还要对成分所用的表进行控制, 以保证将适当的表用于适当的成分

17、。 对一个成分中所有样本进行编码时, 必须使用同一个量化表和同一套熵编码表。 JPEG解码器同时存放4个不同的量化表和4套不同的熵编码表(顺序扫描解码器例外, 它只能存放2套熵编码表), 这对解码时为多成分图像切换不同的适用表来说是必要的。 与上述编码过程相反, 在解码处理过程中首先是熵解码过程, 然后是解量化过程, 它是将量化函数值乘以步长, 其结果作为IDCT的输入量, 最后执行IDCT, 重建88样本数据块, 形成重建图像。,JPEG标准对数据压缩和图像质量的关系进行了详细说明。 对于具有中度复杂景象的彩色图像, 所有DCT运行模式都可生成以下几种图像质量水平(按图压缩率表示): 0.2

18、5 0.5位/像素: 图像质量中等, 可满足一般的应用需求; 0.5 0.75位/像素: 图像质量好, 可满足有一定图像质量要求的应用需求; 0.75 1.5位/像素: 图像质量很好, 可满足有较高图像质量要求的应用需求; 1.5 2.0位/像素: 图像质量极好, 已难以分辨重建图像与源图像间的差别, 可满足有更高图像质量要求的应用需求。,3. JPEG其它运行模式(1) 递增运行模式它也是由FDCT和量化过程构成的。所不同的是, 图像分量是多次扫描编码, 第一次扫描编码产生的图像是粗糙的, 然后可再组织后续的扫描, 对图像逐步求精, 直到达到量化表所规定的图像质量水平。 这种运行模式的优点是

19、可生成预显示的图像, 而无需对该图像完全解码, 可以迅速地传输和显示图像。 这里有两种对量化DCT系数进行编码的方法: 一是在一次扫描中, 只对“之”字形顺序中一个特定“波段”的系数进行编码, 这一过程叫“频谱选择”; 二是在当前波段中, 无需在一次扫描中对全部系数进行准确编码, 可首先指定N个最有意义的位先编码, 在后面的扫描中, 再对其次有意义位进行编码, 这个过程叫连续逼近。 上述两种方法可分别使用, 也可灵活组合使用。,(2) 无损运行模式它与源编码过程不同, 不是采用变换编码和量化器相结合的方式进行编码, 而是采用DPCM技术进行无损压缩编码, 但压缩率较低。 这种运行模式主要用于无

20、损地存储和传输图像(如X光照片)的场合。 对基于DPCM的无损压缩模式, JPEG没有严格规定。 对于中等复杂程序的彩图, 其压缩比为21。,(3) 分层运行模式它提供一种“金字塔”式分辨率图像编码, 即相邻两次编码, 分辨率在水平或垂直、或者两个方向上相差二倍。 其过程是: 先降低源图的分辨率, 对其采样编码, 再复原重建; 然后提高分辨率再采样编码, 作为源图的预测值, 与低分辨率采样值进行比较, 对其差值分别进行编码; 重复上述步骤, 直到实现图像的全分辨率编码。这种运行模式很适合于用低分辨率设备处理高分辨率图像的应用。,2.3.2 H.261标准,为了满足在综合数字网络(ISDN)上开

21、展可视通信业务的需要, ITU专门成立了一个可视电话编码规范小组来制定有关视频信号传输编码标准, 并先后完成了H.261和H.263标准的制定工作。 H.261是“p64 kb/s视频编解码器”标准, 其中p的取值范围在130之间, 代表ISDN的B通道数量, 各个通道的数码率为64 kb/s。 由于H.261主要是为可视电话和电视会议制定的, 因此, 标准中所建议的视频编码算法应具有实时处理能力, 延时应控制到最小程度。当p=1或2时, 由于数码率较低, 仅能用于桌面上进行面对面直观通信。 而当p6时, 由于提高了数码率, 能够传输较复杂的图像, 图像质量也得到改善, 因此更适合电视会议。,

22、H.261的目标是在世界范围内的数字电话通道上实现视频和音频信号的传输, 具体的目标是: 视频源信号可以是525线或625线的电视信号。 在实际应用中必须将视频源信号转换成通用中间格式(CIF), 使之不依赖于视频源信号格式。这样便允许各个地区之间不同电视格式设备通过标准的Codec进行通信。 由标准编码器产生的位流可以和其它信号(如音频)一起传输。 视频传输速率在40 kb/s2 Mb/s之间, 与电视会议和可视电话的图像质量相对应。 支持单向或双向的可视通信。 支持多点通信。 是否纠错由编码器决定。,1. 视频编码格式,图 2.5 H.261的亮度和色度样本分布,表2.2 CIF和QCIF

23、编码格式参数举例,以 29.97 帧/秒速率传送CIF和QCIF, 未压缩数码率分别为36.45 Mb/s和9.113Mb/s。在使用ISDN通道(p64 kb/s, p=1, 2, , 30)传送视频信号时, 必须大幅度地降低数码率。至于选用CIF和QCIF中的哪一种, 则取决于通道容量的大小。当p=1或2时, 在桌面可视电话应用中常选用QCIF。如果在10帧/秒速率下使用, 即使选用QCIF也要将数码率减少47.5倍才能使用64 kb/s通道来传送信号, 这是很难实现的。当p6时, 可以使用CIF, 因为它有很多可用于对图像编码的信息。由于CIF的分辨率高, 更适合于电视会议方面的应用。,

24、图 2.6 CIF和QCIF视频帧数据结构,它分为4个层次: 画面、块组(GOB)、宏块(MB)和块。其中, 每个CIF画面有12个GOB, 每个块组由311个宏块组成, 每个宏块由4个88亮度块(Y)和两个88色度块(Cb和Cr各1个)组成, 一个块由88像素点(DCT编码单位)组成。一个QCIF图像有3个GOB, 是CIF的四分之一。 这种以块为单位的层次结构对高压缩比视频编码算法来说是至关重要的。 每个画面层的数据中都有一个图像标题, 图像标题后是GOB的数据。 图像标题包括一个20位的图像起始码以及其它信息。例如, 视频编码格式(CIF或QCIF)、临时标记(帧编号)等。GOB层有一个

25、块组标题, 紧随其后的是宏块数据。 块组标题包括一个16位的GOB起始码以及其它信息。例如, GOB的位置、GOB量化信息等。,宏块层有一个宏块标题, 宏块标题之后是块的数据。 宏块标题包括一个该宏块类型变长码(VLC)。其后是一个宏块变长码, 标明是帧内编码还是帧间编码, 是否附带运动预测和循环滤波器。根据宏块的具体类型, 后面还可以跟有各种各样的附加信息。当运动预测精确到某一给定的指标时, 无需传送DCT系数的块数据。另外, 在一个GOB中, 如果某一宏块中没有包含图像, 则相应部分的信息就不必传送。 块层含有块的DCT系数, 其后是一个定长码EOB, 用以标识块的结束。 块的DCT系数利

26、用了二维VLC编码。宏块中并不是每一个块都需要传送。,2. 视频编码算法,图 2.7 H.261编码与解码处理过程 (a) 视频编码器; (b)视频解码器, 被传输图像的第1帧总是按帧内编码方法编码(该帧的所有宏块): 整个图像帧被分成互不重叠的88像素块; 对这些块进行FDCT变换; 对所产生的64个DCT系数进行线性量化, 并按“之”字形重新排列; 为帧间编码准备参照帧, 即使用逆向量化器和IDCT变换在编码器内对该帧进行解码来恢复, 生成与接收端解码器完全一致的参照帧, 并存放在图像存储器中供帧间编码使用。, 对后续需要编码的帧, 要根据最新的参照帧进行运动补偿预测, 以决定该帧的每个宏

27、块是否进行帧内编码或帧间编码。 H.261采用单向运动补偿预测算法, 即: 每个宏块只使用4个亮度块, 针对当前被编码的宏块, 在参照帧中寻找最接近的匹配。H.261通过检查宏块计算运动补偿值, 运动向量的搜索范围在15个像素内。 如果找不到一个最接近的匹配, 则在该宏块中使用与帧内编码完全相同的编码方法。对运动向量进行差分编码, 并以从左边宏块的运动向量作为参考。标准规定, 编码器不能用来确定运动向量, H.261只考虑连续帧中同一位置上宏块之间的差异。 如果当前块与所预测块之间的误差小于某一阈值, 则该块可以略过不编码。, 必要时可以在源编码器和熵编码器之间使用循环滤波器, 以滤掉高频干扰

28、, 改善图像质量。这种方法特别适用于低数码率的情况。 H.261的量化器是一种线性量化器, 并非JPEG和MPEG中所使用的量化矩阵。它只是对GOB使用了量化系数, 并不区分高频DCT系数和低频DCT系数。 H.261的熵编码是可变长的, 并对所有用到的哈夫曼表按标准进行预定义, 同时还定义了运动向量表和量化编码表等。,2.3.3 H.263标准H.263是一种低数码率下的运动图像编码标准, 它在H.261的基础上进行适当的扩展, 主要是用于支持低数码率下的视听信号传输服务的。 典型的应用有: 在V.34 Modem的连接上采用20 kb/s速率传输视频信号; 采用6.5 kb/s速率传输音频

29、信号。 H.263吸取了MPEG的经验对H.261进行改进, 主要进行如下方面的扩展: 将图像格式由两种增加到五种、对运动补偿预测进行改进和精化以及支持双向运动补偿预测等。,2.3.4 MPEG标准MPEG(Moving Picture Experts Group)是ISO为制定有关动态图像压缩标准而成立的一个专家组, 现已经公布了多个版本的MPEG标准: MPEG-1、 MPEG-2和MPEG-4, 其中MPEG-1是MPEG标准集的基础, MPEG-2和MPEG-4都是在MPEG-1基础上所作的改进和扩展, 以满足不同的应用要求和环境。 MPEG标准是一个通用标准, 既考虑了应用要求, 又

30、独立于具体的应用。MPEG标准可用于下列数字存储媒体上: 光盘(CD-ROM)、 数字录音带(DAT)、 磁盘、 可写光盘以及通信网络 (综合业务数字网、 分组交换网以及局域网等)。 ,MPEG标准不仅考虑了视频数据压缩, 而且还考虑了音频数据压缩以及二者之间的同步问题。作为MPEG视频压缩算法, 必须具有与存储相适应的性质, 即能够随机访问、 快进/快退检索、倒放、音像同步、容错能力、延时限制、可编辑性以及灵活的视频窗口格式。实现这些特性对各种应用都是十分重要的, 因而也构成了MPEG视频压缩算法的基本特征。,2.3.4.1 MPEG-1 标准,1. MPEG-1 图像组织结构MPEG-1视

31、频压缩算法所面临的一个矛盾是: 在保证图像质量的前提下, 仅靠帧内编码很难达到高压缩比; 而满足随机访问条件的最好方法则是帧内编码。为使高压缩比和随机访问这两方面要求都能得到满足, MPEG-1采取了预测和插值两种帧间编码技术。,为此, MPEG-1将图像编码帧分成三类: I帧(Introcoded frame, 内帧): 它采用与JPEG相类似的编码方法进行编码, 并且在编码时不必参照其它的帧, 其压缩比是比较低的。 I帧可作为随机访问点以及其它图像编码帧的参照帧。 P帧(Predictively coded frame, 预测帧): 它需要利用前面的I帧或P帧信息进行编码和解码, 同时又是

32、后续P帧的参照帧。 它利用了瞬时冗余特性, 可获得较高的压缩比。然而只有对所参照的I帧和P帧完成解码后才能访问P帧。 B帧(Bidirectionally predictively coded frame, 双向预测帧): 它需要利用前面和后面的I帧、 P帧信息进行编码和解码, 但它本身不可作为参照帧。由于B帧使用了双向运动补偿预测技术, 故它的压缩比是最高的。,图 2.8 MPEG-1视频帧编码及关系,图2.9 MPEG视频流的数据层次,2. MPEG-1视频压缩算法MPEG-1视频压缩算法采用两种基本技术: 一是基于块的运动补偿预测, 以缩减时间冗余; 二是基于DCT的变换编码, 以缩减空

33、间冗余。运动补偿预测技术采用纯预测编码和插值预测编码两种编码方法。剩余信号(预测误差)在缩减空间冗余时被进一步压缩。 与运动有关的信息包含在1616块中, 与空间信息一起进行DCT变换。为获得最大限度的编码效率, 使用可变长熵编码器来压缩运动信息。,MPEG-1视频的编码与解码处理过程如下: 每个GOP的第1帧总是I帧, 它是按块顺序编码的, 即使用DCT变换、 量化过程和熵编码方法进行中度压缩, 并作为参照帧和随机访问点。 当GOP中出现B帧或P帧时, 将启动运动补偿预测过程, 以获取最佳的压缩比。 对于P帧的编码, 运动补偿预测算法使用最近一个I帧或P帧作为参照帧。如果在当前帧的宏块与参照

34、帧的宏块之间找到一个较好的匹配, 则对当前帧的宏块的运动向量和所得到的预测误差进行编码; 否则, 只对该宏块进行帧内编码。, 对于B帧的编码, 其处理过程比较复杂, 因为必须考虑四种可能性: 正向预测、 反向预测、 插值和宏块中的帧内编码(在前三者均不合适的情况下)。如果使用插值方法, 则必须使用前、 后两个最近的I帧或P帧作为参照帧, 并产生两个运动向量和一个预测误差块, 并且应当首先传输P帧和B帧的参照帧。, MPEG-1标准采用了两种结构的量化器, 根据帧内编码和帧间编码不同的DCT系数性质采用不同的量化矩阵, 通过Q系数来控制编码, 以适应编码器的输出数码率。由于预测误差块主要是高频信

35、号, 可以采用粗粒度的量化器, 以降低数码率; 帧内编码块的信号频率范围较宽, 则应当采用细粒度的量化器进行精确编码; 否则, 对于那些光滑边界的块, 很小的误差都会产生可察觉的块边界(即块效应现象)。 因此, 为了适应人的视觉特性, 必须对量化器进行修正, 重点对图像中视觉效应敏感部分进行精确编码, 以消除块效应现象。这样, 既可满足图像数码率的要求, 又能改善图像质量。, MPEG-1的熵编码过程可分成两步: 首先, 进行可变长行程编码(对出现概率较小的代码)和定长行程编码(对出现概率最大的代码); 然后, 使用带有预定义表的哈夫曼编码。通过熵编码进一步提高了DCT的压缩比, 同时减少运动

36、信息对总数码率的影响。MPEG-1的DCT系数的变长码是H.261标准中所使用变长码的一个超集。 如果在一个处理器上同时实现这两个标准, 则使用一个变长码即可, 以减小开销。 在参照帧之间增加一定数量的B帧, 既可降低B帧与参照帧之间相关性, 也可降低参照帧之间的相关性。B帧的数量是随视频内容而变化的, 但对大多数视频内容而言, 以 1/10秒钟的间隔将B帧插入到参照帧中是合适的。图像的组合形式是: IBBPBBPBB IBBPBB。,3. MPEG-1视频约束参数集,表2.3 MPEG-1视频约束参数集中的若干参数,2.3.4.2 MPEG-2标准,支持2100 Mb/s速率的数字视频传输。

37、 可用于支持高清晰度电视(HDTV)格式。 定义一种层次可伸缩的规范, 用于支持全球范围的TV/HDTV、 视频传输系统以及其它需要高级编码的应用。 向下兼容现存的MPEG-1和H.261标准。 扩展了MPEG-1的运动补偿预测方法, 并且允许其它的DCT系数。 定义了可伸缩的、 层次化的编码算法, 使普通TV和HDTV系统可以使用相同的数据流。,MPEG-2标准主要由四部分组成: MPEG-2视频、 MPEG-2音频、MPEG-2系统和MPEG-2一致性测试规范。从概念上讲, MPEG-2和MPEG-1很相似, 只是MPEG-2标准所覆盖的应用领域更加广泛。 最初制定MPEG-2标准的目标是

38、为了传输广播电视质量级的全数字视频信号。 后来MPEG-2标准被扩展到其它领域, 并得到很好的应用, 如传输速率更高的HDTV系统。,1. MPEG-2视频MPEG-2视频标准主要为传输电视质量级的数字视频信号而制定的, 同时作为一种基于MPEG-1的扩展标准完全兼容MPEG-1视频标准, 并且还提供了隔行扫描视频编码格式和一些其它高级特性, 支持HDTV的视频传输。 为了MPEG-2标准适用于更广的应用领域, 使之具有较高可伸缩性, MPEG-2视频标准定义了四种配置 (Profile) 和四种级别(Level)。 Profile有Simple、 Main、 Main+和Next, 主要定义

39、了编码的语法和算法; Level有Low、 Main、 High 1440和High, 主要定义了编码的参数, 如采样速率、图像帧尺寸、 编码速率等。 Profile 和Level的组合构成了处理不同位流的解码器模式。 其中, Main Profile和Main Level组合起来可以解决90%的应用问题。,2. MPEG-2音频MPEG-2音频标准用于支持低数码率多通道音频信号的编码, 它可以支持5路全带宽的音频通道(左、右声道, 中置和两路环绕声道), 还可以有一个低频增强信道, 或者支持7路解说/多国语言通道。 MPEG-2音频标准中的立体声和单声道的编码采样速率为16 kHz、 22.

40、05 kHz和24 kHz, 只是MPEG-1音频采样速率的二分之一, 目的是使每个声音通道能够在低于64 kb/s的速率下传送。 MPEG-2音频标准除了保持左、 右声道与MPEG-1标准相兼容外, 还增加了几个离散声道(一个中置和两路环绕声道), 明显地改善了声音效果。对于新增加的声道, MPEG-2音频标准采用了新的编码方法。,3. MPEG-2系统MPEG-2系统标准定义MPEG-2视频和音频流的传输或存储格式, 以便于两者的同步。它定义了两种信息流格式: 传送流和程序流。 传送流格式适合在数据易丢失的的应用场合, 如在各种网络环境下进行数字电视和可视电话信号的传输, 以及在各种存储介

41、质上存储视频和音频数据。程序流格式保持与MPEG-1相兼容, 并且针对多媒体应用领域进行了优化, 包括对支持新的应用的扩展。 传送流和程序流都是建立在一种公共的分组结构之上的, 以便于视频和音频解码的实现和类型转换。在这种分组结构中, 每个传送流分组的长度是固定的, 共188个字节, 包括4个字节的分组头。 这恰好是ATM信元体长度(48个字节)的4倍, 因此, 这种分组结构特别适合在ATM网络上传输。当然, 它也适合在其它网络环境和存储系统。,2.3.4.3 MPEG-4标准MPEG-4标准是数字超低数码率的视频编码标准。 主要适用于移动多媒体通信的场合, 特别是64kb/s速率下的视频通信

42、。 MPEG-4视频编码方法采用与H.263标准相同的方法, 并已经开发出增强型的H.263, 在不降低清晰度的前提下消除块效应, 以提高低数码率下的视觉质量。,2.3.5 图像质量评价,1. 主观评价,表 2.4 图像质量主观评价,为了保证图像质量主观评价的客观性和准确性, 可用一定数量观察者的质量分数的平均值作为最终主观评价结果, 其平均分数定义为:,其中, Ci为属于第i类图像的质量分数, Ki为判断该图像属于第i类图像的人数。观察者中应包括两类人员:一般人员和专业人员, 人数应多于20, 这样, 得出的主观评价结果才具有统计意义。,2. 客观评价图像客观评价是用数学计算方法得到的。 通

43、常, 采用计算图像逼真度和可懂度来评价。所谓图像逼真度,是指重建图像与原始图像之间的偏差程度; 所谓图像可懂度,是表示人或机器能从图像中抽取有关信息的程度。下面主要讨论图像逼真度。 通常, 图像逼真度用峰值信噪比PSNR来度量。 对于黑白图像, PSNR计算公式为,式中, f (i, j)为原始图像, f(i, j)为重建图像, 图像尺寸为NM, A为f (i, j) 中的最大值, 通常取255。 此外, 也可使用均方差方法来计算图像误差, 其数学表达式为:,2.4 语音编码标准,音频编码技术可分成两大类: 一类是波形编码或称真迹编码; 另一类是参量编码或称变换域编码。前者是将时间域信号直接变

44、换成数字代码进行传输。 其特点是重建信号的质量较高, 即信号的信噪比高。 传输数码率为1664 kb/s, 依所采用的编码方法而异。 后者是在信号源信号的频率域或其它正交域抽取其特征参数变换成数字代码进行传输, 接收端则从数字代码中恢复特征参数, 然后根据这些特征参数重建语音信号。其特点是重建信号的质量较低, 但数码率也比较低, 一般为几百b/s9600 b/s, 多用于窄带信道传输。各种音频编码技术比较参见表2.5。,表 2.5 各种音频编码技术比较,2.4.1 PCM编码脉冲编码调制(Pulse Code Modulation, PCM)是一种在现代通信系统中被广泛应用的语音编码技术, 也

45、是数字传输中的标准接口信号。 ITU 在G.711建议书中定义了PCM编码方法及其标准。 PCM编码的主要优点是: 编码方法简单, 不需要用复杂的信号处理技术就可实现数据压缩, 而无任何信号延迟; 基于对话音信号波形采样的瞬时处理, 具有较高的信噪比。,图 2.10 PCM组成原理框图,对于电话信号编码, 由于其信号带宽为3003400 Hz, 通常采用8 kHz频率进行采样, 而每一个采样脉冲用8位二进制码表示。 这样, 每个话音通道的数码率为: f 8000864 kb/s对于采用8位编码的正弦波信号, 其最大信噪比按下式计算: SNR(dB)6.02L1.766.0281.7649.92

46、 dB 式中, L为二进制编码位数。,如果要求信噪比至少保持在34 dB以上, 则信号的动态范围应当为49.923415.92 dB, 显然这一动态范围远不能满足要求。 为了扩大信号的动态范围, 通常采用瞬时压扩特性。 瞬时压扩的目的是使信号在大的动态范围内具有均匀一致的信噪比。瞬时压扩的方法主要采用对数压扩特性, 即用一条通过原点正负对称的曲线逼近对数函数, 以实现对正负对称信号的对数压缩。 在ITU G.711建议中, 定义了两种对数压扩特性, 一种是15段折线近似是律; 另一种是以13段折线近似是A律, 美国、 日本等国家在数字通信中采用律压扩特性, 中国和欧洲一些国家采用A律压扩特性。

47、,PCM编码/解码器通常采用单片集成电路(IC)芯片实现, 它将滤波、 放大、 量化、 压扩、 编码以及解码等功能集成一体, 具有处理速度快、 体积小、 成本低、 便于开发等特点。 例如, 美国Motorola公司的MC 14403就是这种单片PCM编码/解码器。,2.4.2 ADPCM编码通常, 把低于64 kb/s数码率的的语音编码方法称为语音压缩编码, 其中自适应差分脉冲编码调制(ADPCM)是语音压缩编码中复杂度较低的一种方法。ADPCM能在32 kb/s数码率上达到符合64 kb/s数码率的语音质量要求, 即符合长途电话的语音质量要求。 ADPCM 编码的国家标准是ITU G.721。 在电话通信网中, 32 kb/s ADPCM主要用于扩充现有的PCM信道传输容量, 把两个30路PCM信号合并成一个2 Mb/s的60路ADPCM信号。通常, 在信道所传输的信号中, 既有话音信号, 又有Modem信号或音频信令信号。 对于话音信号, 其信号电平动态范围比较大; 对于Modem信号或音频信令信号, 其信号电平变化的范围远小于话音信号。因此, 对这两类不同的信号, 要求自适应量化器能够自动调节自适应的速度。,图 2.11 一种简化的ADPCM编解码器原理框图 (a) ADPCM编码器; (b) ADPCM解码器,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报