1、第四章 多媒体数据压缩编码技术,本章要点 多媒体数据压缩编码的重要性和分类 常用压缩编码算法的基本原理及实现技术,预测编码、变换编码(K-L变换、DCT变换)、统计编码(Huffman编码、算术编码)。 静态图像压缩编码的国际标准(JPEG)原理、实现技术,以及动态图像压缩编码的国际标准(MPEG)的基本原理。,多媒体数据压缩编码的重要性,信息时代的重要特征是信息的数字化,数字化了的信息带来了“信息爆炸”。多媒体计算机系统技术是面向三维图形、立体声和彩色全屏幕运动画面的处理技术。数字计算机面临的是数值、文字、语言、音乐、图形、动画、静图像和电视视频图像等多种媒体承载了由模拟量转化成数字量信息的
2、吞吐、存储和传输的问题。数字化了的视频和音频信号的数量之大是非常惊人的。,多媒体数据压缩编码的可能性,空间冗余 时间冗余 结构冗余 知识冗余 视觉冗余 图像区域的相似性冗余 纹理的统计冗余,多媒体数据压缩编码的分类,多媒体数据压缩方法根据不同的分类标准而不同 第一种,根据质量有无损失可分为:无损压缩和有损压缩。 第二种,按照其作用域在空间域或频率域上分为:空间方法、变换方法和混合方法。 第三种,根据是否自适应分为自适应性编码和非适应性编码,一般来说,每一个编码方法都有其相应的自适应算法。 第四种,按其原理分类也可分为:预测编码、变换编码、量化与矢量量化编码、信息熵编码、分频带编码、结构编码和基
3、于知识的编码。,常用压缩编码算法的基本原理及实现技术,预测编码:编码器记录与传输的不是样本的真实值,而是它与预测值的差。这一方法称为差值脉冲编码调制(differential pulse code modulation,简称DPCM)方法 变换编码(K-L变换、DCT变换):其主要思想是利用图像块内像素值之间的相关性,把图像变换到一组新的基上,使得能量集中到少数几个变换系数上,通过存储这些系数而达到压缩的目的 统计编码(Huffman编码、算术编码):最常用的统计编码是Huffman编码,标量量化比较实验结果,索引色转换压缩,图 d 四次小波变换编码的实验结果,(a) 原图 (b) 压缩效果图
4、,预测编码,预测编码的基本原理 自适应预测编码 帧间预测编码,变换编码,变换编码不是直接对空域图像信号进行编码,而是首先将空域图像信号映射变换到另一个正交矢量空间(变换域或频域),产生一批变换系数,然后对这些变换系数进行编码处理。变换编码是一种间接编码方法,其中关键问题是在时域或空域描述时,数据之间相关性大,数据冗余度大,经过变换在变换域中描述,数据相关性大大减少,数据冗余量减少,参数独立,数据量少,这样再进行量化,编码就能得到较大的压缩比。目前常用的正交变换有:傅立叶 (Fouries)变换、沃尔什(Walsh)变换、哈尔(Haar)变换、斜(Slant)变换、余弦变换、正弦变换、K-L(K
5、arhunen-Loeve)变换等。,变换编码的基本原理,利用映射变换来实现对数据的建模表示,也就是说,将数据“变换”到另外一个更为紧凑的空间表示。经过多维坐标系中适当的旋转和变换,就能够把分散在各个坐标轴上的原始数据,在新的、适当的坐标系中集中到少数坐标轴上,因此可以用较少位数来表示一组样本信号,实现高效率的压缩编码。,预测编码消除相关性的能力有限,变换编码是一种更高效的压缩编码。 变换编码的思想: 将初始数据从时间域或者空间域变换到另一个更适合于压缩的抽象域,通常为频域。,统计编码,根据香农信息论的原理,最佳的数据压缩方法的理论极限是信息熵。如果要求在编码过程中不丢失信息量,即要求保存信息
6、熵,这种信息保持的编码又叫熵保存编码,或叫熵编码。熵编码是无失真压缩。当然在考虑人眼失真不易察觉的生理特性时,有些图像编码不严格要求熵保存,信息允许通过部分损失来换取高的数据压缩比。这种编码属于有失真数据压缩。,Huffman编码,基本原理Huffman编码的理论依据是变字长编码理论。按信源符号出现的概率大小进行排序,出现概率大的分配短码,出现概率小的则分配长码。,Huffman编码,Huffman编码的编码步骤 概率统计(如对一幅图像,或m幅同种类型图像作灰度信号统计),得到n个不同概率的信息符号。 将n个信源信息符号的n个概率,按概率大小排序。 将n个概率中,最后两个小概率相加,这时概率个
7、数减为n-1个。 将n-1个概率,按大小重新排序。 重复,将新排序后的最后两个小概率再相加,相加和与其余概率再排序。 如此反复重复n-2次,得到只剩两个概率序列。 以二进制码元(0.1)赋值,构成霍夫曼码字。编码结束。,静态图像压缩编码的国际标准(JPEG)原理、实现技术,JPEG(Joint Photographic Experts Group)是一个通用的静态图像压缩标准JPEG压缩分4个步骤实现: 颜色模式转换及采样; DCT变换; 量化; 编码。,动态图像压缩编码的国际标准(MPEG)的基本原理,MPEG(Motion picture Experts Group)是运动图像专家小组的英
8、文缩写 MPEG标准主要有MPEG-l、MPEG-2、MPEG-4和正在制定的MPEG-7等,多媒体数据压缩编码的国际标准,1.静态图像压缩编码的国际标准(JPEG) JPEG(Joint Photographic Experts Group联合图象专家组)是(ITU的前身)国际电话与电报咨询委员会CCITT与ISO于1986年联合成立的一个小组,负责制定静态图像的编码标准。 1992年9月JPEG推出了ISO/IEC 10918标准(CCITT T.81)连续色调静态图像的数字压缩与编码,简称为JPEG标准,适用于灰度图与真彩图的静态图像的压缩。,多媒体数据压缩编码的国际标准,2000年12
9、月JPEG在JBIG(Joint Bi-level Image experts Group联合二值图像专家组)的帮助下又推出了比JPEG标准的压缩率更高、性能更优越的JPEG 2000标准ISO/IEC 15444 (ITU T.8002002年8月)JPEG 2000图像编码系统,适用于二值图、灰度图、伪彩图和真彩图的静态图像压缩。,多媒体数据压缩编码的国际标准,JPEG主要采用了以DCT(离散余弦变换)为基础的有损压缩算法。而JPEG 2000则采用的是性能更优秀的小波变换。 由于视频的帧内编码就是静态图像的编码,所以JPEG和JPEG 2000的算法也用于MPEG的视频编码标准中。,多媒
10、体数据压缩编码的国际标准,JPEG专家组开发了两种基本的压缩算法: 采用以DCT为基础的有损压缩算法 采用以预测技术为基础的无损压缩算法 在JPEG标准中定义了四种编码模式: 顺序编码 累进编码 无失真编码 分层编码,JPEG图像的压缩比与质量JPEG在使用DCT进行有损压缩时,压缩比可调整在压缩1030倍后,图像效果仍然不错,因此得到了广泛的应用。,多媒体数据压缩编码的国际标准,多媒体数据压缩编码的国际标准,2 .JPEG压缩的算法概要 JPEG压缩是有损压缩,它利用了人的视觉系统的特性,使用量化和无损压缩编码相结合来去掉视角的冗余信息和数据本身的冗余信息。JPEG属于结合变换编码(DCT)
11、与熵编码(RLE/Huffman)的混合编码。 JPEG算法与彩色空间无关,因此“RGB到YUV变换”和“YUV到RGB变换”不包含在JPEG算法中。JPEG算法处理的彩色图像是单独的彩色分量图像,因此它可以压缩来自不同彩色空间的数据,如RGB, YCbCr和CMYK。,多媒体数据压缩编码的国际标准,基于DCT的编码过程,JPEG压缩编码大致分成三个步骤: (1) 使用正向DCT(FDCT = forward DCT)把空间域表示的图变换成频率域表示的图。 (2) 使用加权函数对DCT系数进行量化,这个 加权函数对于人的视觉系统是最佳的。 (3) 使用Huffman可变字长编码器对量化系数进行
12、编码,多媒体数据压缩编码的国际标准,基于DCT的解压缩过程,译码/解压缩的过程与压缩编码过程正好相反。,多媒体数据压缩编码的国际标准,多媒体数据压缩编码的国际标准,JPEG压缩编码算法的主要计算步骤 (1) 8*8分块 (2) 正向离散余弦变换(FDCT) (3) 量化(quantization) (4) Z字形编码(zigzag scan) (5) 使用差分脉冲编码调制DPCM对直流系数DC(direct current)进行编码 (6) 使用行程长度编码RLE对交流系数AC(alternating current)进行编码 (7) 熵编码(Huffman/算术),多媒体数据压缩编码的国际标
13、准,1.FDCT对每个单独的彩色图像分量,把整个分量图像分成若干88的图像块,并作为两维离散余弦变换的输入。通过DCT变换,把能量集中在少数几个系数上。,2.量化 量化指对经过FDCT变换后的频率系数进行量化 量化的目的是减小非“0”系数的幅度以及增加“0”值系数的数目 量化是图像质量下降的最主要原因 对于有损压缩算法,JPEG算法使用线性(均匀)量化器进行量化 量化步距是按照系数所在的位置和每种颜色分量的色调值来确定,多媒体数据压缩编码的国际标准,3. Z字形编排量化后的系数要重新编排,目的是为了增加连续的“0”系数的个数,就是“0”的游程长度,方法是按照Z字形的式样编排。,多媒体数据压缩编
14、码的国际标准,4. 直流系数的编码 88图像块经过DCT变换之后得到的DC直流系数有个特点,一是系数的数值比较大,二是相邻88图像块的DC系数值变化不大 根据这些特点,JPEG算法使用了差分脉冲编码调制(DPCM)技术,对相邻图像块之间的DC系数的差值(Delta)进行编码:,多媒体数据压缩编码的国际标准,5. 交流系数的编码 量化AC系数的特点是163矢量中包含有许多“0”系数,并且许多“0”是连续的,因此使用非常简单和直观的游程长度编码(RLE)对它们进行编码 JPEG使用了1个字节的高4位来表示连续“0”的个数,而使用它的低4位来表示编码下一个非“0”系数所需要的位数,跟在它后面的是非0
15、量化AC系数的数值,多媒体数据压缩编码的国际标准,6. 熵编码 JPEG对DPCM编码后的直流DC系数和RLE编码后的交流AC系数使用熵编码作进一步的压缩 在JPEG有损压缩算法中,使用Huffman编码器来减少熵。使用Huffman编码器的理由是可以使用很简单的查表(lookup table)方法进行编码 压缩数据符号时,Huffman编码器对出现频度比较高的符号分配比较短的代码,而对出现频度较低的符号分配比较长的代码。这种可变长度的Huffman码表可以事先进行定义,多媒体数据压缩编码的国际标准,7.组成位数据流 JPEG编码的最后一个步骤是把各种标记代码和编码后的图像数据组成一帧一帧的数
16、据,这样做的目的是为了便于传输、存储和译码器进行译码 这样组织的数据通常称为JPEG位数据流(JPEGbitstream),多媒体数据压缩编码的国际标准,MPEG编码的国际标准 视频编码的国际标准,包括计算机与网络领域的MPEG系列与电子与通信领域的H系列 MPEG系列标准:1988年由ISO 和IEC 联合成立了MPEG(MovingPicture Expert Group运动图像专家组),负责开发视频数据和声音数据的编码、解码和它们的同步等标准。这个专家组开发的标准称为MPEG标准。到目前为止,已经公布的MPEG标准有MPEG-1/2/4/7/21/B,其中的MPEG-1、MPEG-2和M
17、PEG-4标准已经得到广泛应用。 H.26x系列标准 :ITU-T及其前身CCIR制定了一系列音视频压缩编码和通信技术标准。其中的ITU-T H.26x是与MPEG类似的视频编码系列标准 .,多媒体数据压缩编码的国际标准,视频编码标准,多媒体数据压缩编码的国际标准,多媒体数据压缩编码的国际标准,MPEG-1标准 MPEG-1处理的是标准图像交换格式(Standard Interchange format,SIF)或者称为源输入格式(Source Input Format,SIF)的电视,即NTSC制为352像素x 240行/帧x 30帧/秒,PAL制为352像素x 288行/帧x25帧/秒,压
18、缩的输出速率定义在1.5 Mbit/s以下。这个标准主要是针对当时具有这种数据传输率的CD-ROM和网络而开发的,用于在CD-ROM上存储数字影视和在网络上传输数字影视。 MPEG-1用于数据速率高达约1.5Mbit/s的数字存储媒体的视频和伴音编码(ISO/IEC 11172:1993 Information technology - Coding ofmoving pictures and associated audio for digital storage mediaat up to about 1.5 Mbit/s),1992年11月成为标准,功能:低分辨率数字视频编码标准 编码:
19、DCT +视觉加权量化+熵编码+运动补偿+帧间预测格式CIF:25或30帧/秒、288行360列或240行352列、8位量化 音频:IIII层,声道双-单声道、立体声、联合立体声 应用:VCD、MP3,多媒体数据压缩编码的国际标准,MPEG-2标准 MPEG-2 运 动 图 像 和 伴 音 信 息 的 通 用 编 码 (ISO/IEC13818:1996 Information technology Generic codingof moving pictures and associated audio information ),1994年11月成为标准,功能:高分辨率数字视频编码标准 编
20、码:似MPEG-1 格式:低35228829.79、主720480或57629.79或25、高-144014401080或115230或25、高19201080或115230或25 音频:AAC兼容MPEG-1,另支持5.1/7.1声道(AC-3/DTS) 应用:DVD、HDTV,多媒体数据压缩编码的国际标准,MPEG-4标准 MPEG-4 视 听 对 象 编 码 ( ISO/IEC DIS 14496-1:1999 Information technology - Coding of audio-visual objects),1999年1月成为标准,功能:分辨率可变的视听对象编码标准 编码
21、:视音频对象、分块/分级/分层、基于内容和对象的编码 格式:支持各种不同的分辨率 音频:支持多种码率264kb/s 应用:可视电话、电视会议、网络流媒体、移动视频通信、IPTV,多媒体数据压缩编码的国际标准,MPEG-7标准 MPEG-7 多 媒 体 内 容 描 述 接 口 ( ISO/IEC 15938-1:2002 Information technology - Multimedia content description interface), 1996年启动,2001年9月成为标准,目的是制定一套描述符标准,用来描述各种类型的多媒体信息及它们 之间的关系,以便更快更有效地检索信息。这
22、些媒体材料可包括静态图像、图形、3D模型、声音、话音、电视 以及在多媒体演示中它们之间的组合关系。在某些情况下,数据类型还可包括面部特性和个人特性的表达。 功能:多媒体内容描述标准 应用:基于内容的多媒体信息检索,多媒体数据压缩编码的国际标准,MPEG-21标准 MPEG-21 多 媒 体 框 架 ( ISO/IEC TR 21000-1:2001 Information technology - Multimedia framework(MPEG-21)),2001年12月成为标准 数字图书馆(Digital library),例如图像目录 、 音 乐 词 典 等 ; 多 媒 体 目 录 服 务 (multimedia directory services),例如黄页(yellow pages);广播媒体的选择,例如无线电频道,TV频道等;多媒体编辑,例如个人电子新闻服务,多媒体创作等等。潜在应用的应用领域包括:教育、娱乐、新闻、旅游、医疗、购物等等。,功能:多媒体框架标准 应用:不同多媒体系统的集成和应用,多媒体数据压缩编码的国际标准,