1、第5章 图像编码与压缩,5.1 引言(图像压缩的基本概念) 5.2 图像保真度准则(图像评价) 5.3 无损压缩技术 5.4 无损预测编码 5.5 有损预测编码 5.6 图像变换编码基本原理 5.7 视频图像编码简介,2019/4/27,5.1 引言(图像压缩的基本概念),数字图像数据量很大,因此为了快速传输,总是希望进行合理的图像压缩。 压缩的理论基础是信息论,是一种通过删除冗余的或者不需要的信息来达到压缩数据量目的的技术。 虽然表示图像需要大量数据,但是图像数据是高度相关的,或者说存在冗余信息,去掉这些冗余信息后可以有效压缩图像,同时又不会损害图像的有效信息。 数字图像的冗余主要表现为以下
2、几种形式:空间冗余、时间冗余、视觉冗余、信息熵冗余、结构冗余和知识冗余。,2019/4/27,1.空间冗余 图像内部相邻像素之间存在较强的相关性所造成的冗余。也称为像素相关冗余。 场景中总有一些物体,图像中就有一些目标,同一目标的像素之间一般具有相关性。 根据相关性,由某一个像素的性质可以获得其邻域像素的性质,各像素的值可以由其邻近像素的值预测出来,每个独立的像素所携带的信息相对较少。图像中存在与像素间相关性直接联系的数据冗余,即为像素相关冗余,也称为空间冗余或几何冗余。 例如:原始图像数据 234 235 236 237 238 237 225压缩后图像数据 234 1 1 1 1 1 -2
3、,2019/4/27,5.1 引言(图像压缩的基本概念),2.时间冗余视频图像序列中的不同帧之间的相关性所造成的冗余。 3.视觉冗余是指人眼不能感知或不敏感的那部分图像信息。人的眼睛对图像细节和颜色的辨认受到人的视觉特性的限制,人类最多能分辨 种颜色,而彩色图像用24表示,即 种颜色,这种数据冗余称为视觉冗余。,2019/4/27,5.1 引言(图像压缩的基本概念),视觉冗余,4.信息熵冗余也称编码冗余,如果图像中平均每个像素使用的比特数大于该图像的信息熵,则图像中存在冗余,称为信息熵冗余。 如:一幅图像,用香农公式计算出来的信息熵是1000.35bit,在消除空间冗余,视觉冗余后还有2500
4、bit,那么,该图像 还存在信息熵冗余.,2019/4/27,5.1 引言(图像压缩的基本概念),5.结构冗余是指图像中存在很强的纹理结构或自相似性。 6.知识冗余是指在有些图像中还包含与某些先验知识有关的信息。 数字压缩技术利用了数据固有的冗余性和不相干性,将一个大的图像数据文件转换成较小的文件。 经过压缩的文件可以在以后需要的时候以某种方式将原文件恢复出来。 两个文件的大小之比即为压缩比。压缩比反映了图像文件的压缩程度。 N原图像bit数,n压缩后图像bit数,N/n为压缩比。,2019/4/27,5.1 引言(图像压缩的基本概念),图像压缩的分类: 无损压缩:删除的仅仅是冗余的信息,因此
5、可以在解压缩时精确地恢复图像。 有损压缩:删除了不影响视觉的信息,因此只能对原有的图像进行近似地重构,而不能精确的复原。 有损压缩的算法可以达到较高的压缩比。对于多数图像来说,为了得到更高的压缩比,保真度的轻微损失是可以接受的。,2019/4/27,5.1 引言(图像压缩的基本概念),主观的保真度准则客观的保真度准则,2019/4/27,5.2 图像的保真度准则,5.2 图像保真度准则,1. 客观保真度准则1)均方根误差常用的准则是输入图像和输出图像的均方根误差。令f(x,y)表示输入图像, 表示对输入图像压缩编码和解码后的近似图像,则原图像和解码后的图像之间的误差可以表示为,2019/4/2
6、7,5.2 图像保真度准则,设图像的大小为 ,则 和 之间的均方根误差为,2019/4/27,5.2 图像保真度准则,2. 主观保真度准则,2019/4/27,图像压缩模型,图像压缩系统的一般构成,信源 编码,信道 编码,信道,信道 解码,信源 解码,信源编码:消除数据冗余,完成原始 数据的编码与压缩。 信道编码:加入容错、校验位等冗余信息,防止信道传输中的干扰。 信道:传送数据的手段。如:Internet、广播、可移动介质等.,图像压缩模型,信源编码模型信源解码模型,映射器,量化器,符号 编码器,反向 映射器,符号 解码器,图像压缩模型,映射器:减少像素冗余.如:使用字典编码,图像变换. 量
7、化器:减少视觉心理冗余.仅适用于有损压缩. 符号编码器:减少编码冗余.如:哈夫曼编码.,5.3 无损压缩技术,无损压缩算法可以分为两大类:基于字典的技术和基于统计的方法。 基于字典的技术生成的文件包含的是定长码,每个码字代表原文件中数据的一个特定的序列。(页码,第几个字) 基于统计的方法通过用较短代码代表频繁出现的字符,用较长的代码代表不常出现的字符,从而实现图像数据文件的压缩。,2019/4/27,5.3.1 基于字典的技术,1.行程编码(Run Length Encoding,RLE)在一个逐行存储的图像中,具有相同灰度值的一些像素组成序列,称为一个行程。可以只存一个代表那个灰度值的码,后
8、面是行程的长度,而不需要将同样的灰度值存储很多次,这就是行程编码。例1 某一图像的第i行为(180,180,180,)共10000个数据,模仿RLE编码可以简单写成 (180,10000)。,2019/4/27,它对单一颜色背景下物体的图像可以达到很高的压缩比,但若图像中的像素中的数据非常分散,则行程编码不但不能压缩数据,反而会增加图像文件的大小。例2 某一图像的第i行为(ai1,ai2,ai3,aij),其中j=10000,如果仍然采用RLE编码,则写成(ai1,ai2,1,ai3,1,aij,1)共有20000个数据,文件被加倍是显而易见的。 行程编码比较适合于二值图像的编码,一般用于量化
9、后出现大量零系数连续的场合,用行程来表示连零码。为了达到较好的压缩效果,在进行图像编码时不单独采用行程编码,而是和其他编码方法综合使用。,2019/4/27,5.3.1 基于字典的技术,2. LZW编码LZ编码是由Lemple和Ziv最早提出的无损压缩技术。它由Welch加以充实而形成了广泛应用的有专利保护的LZW算法。同RLE类似,它也是对字符串编码从而实现数据压缩。然而,与RLE不同的是,它在对文件进行编码的同时,生成特定字符序列的表以及它们对应的代码 。,2019/4/27,5.3.1 基于字典的技术,LZW编码的基本思想:在编码过程中,将所遇到的字符串建立一个字符串表,表中的每个字符串
10、都对应一个索引,编码时用该字符串在字串表中的索引来代替原始的数据串。 例子:ababcbababaaaaaaa a,b,c,ab,ba,abc,cb,bab,baba,aa,aaa,aaaa,2019/4/27,5.3.1 基于字典的技术,5.3.2 统计编码技术,1.哈夫曼编码哈夫曼编码(Huffman Coding)是图像压缩中最重要的编码方式之一,它是1952年由哈夫曼提出的无损的统计编码方法。 在编码输入中,对于那些出现概率大的信息符号编以较短的字长的码,而对于那些出现概率小的信息符号用较长的字长的编码。,2019/4/27,5.3.2 统计编码技术,2香农编码(shannon cod
11、ing)香农编码的过程与哈夫曼编码有些相似。其编码步骤简述如下。 (1)图像灰度级按概率递减顺序排序; (2)将分成两组,每组的概率和相同或相似。对第一组分配代码“0”,第二组分配代码“1”; (3)执行步骤(2)后,若每组还是由两个或两个以上的灰度级组成,就重复上述步骤,直到每组只有一个灰度级。,2019/4/27,5.4 无损预测编码,预测编码的基本思想是通过仅对每个像素中提取的新信息编码,来消除像素之间的冗余。这里一个像素的新信息定义为该像素的当前或现实值与它预测值的差值。一个无损预测编码系统主要由一个编码器和一个解码器组成,它们各有一个相同的预测器,如图5.2所示。,2019/4/27
12、,5.4 无损预测编码,2019/4/27,图5.2 无损预测编码系统,5.4 无损预测编码,当输入图像的像素序列逐个进入编码器时,预测器根据若干个过去的输入产生对当前输入像素的预测值,也称为估计值。将这个预测值进行整数舍入,得到预测器的输出值,则由此产生的预测误差表示为 例如:输入(224 225 223)则经预测器后需传输(224 1 -2),2019/4/27,5.4 无损预测编码,预测误差可以用符号编码器,借助变长码进行编码用以产生压缩图像数据流的下一个元素。利用解码器,根据接收的变长码字重建预测误差,则解压缩图像的像素序列表示为 解压缩时(224 224+1 224+1-2),201
13、9/4/27,5.4 无损预测编码,利用预测器,可以将对原始图像序列的编码转换成对预测误差的编码。 由于在预测比较时,预测误差的动态范围会远小于原始图像序列的动态范围,所以对预测误差的编码所需的比特数会大大减少,这是预测编码可以获得数据压缩结果的原因。 在多数情况下,可以通过将个先前的像素进行线性组合得到预测值。,2019/4/27,5.4 无损预测编码,将m个先前的像素进行线性组合得到预测值。式中,m称为线性预测器的阶,R是舍入函数,ai是预测系数。,2019/4/27,5.5 有损预测编码,有损预测编码系统与无损预测编码系统相比,主要增加了量化器。量化器的作用是将预测误差映射到有限个输出
14、中, 决定了有损预测编码中的压缩量和失真量。有损预测编码系统组成如图5.3所示。,2019/4/27,5.5 有损预测编码,2019/4/27,图 5.3 有损预测编码系统,5.6 图像变换编码基本原理,图像的变换编码是利用某种变换将空间域里描述的图像 ,变换为变换域中描述的 。对变换域中 编码压缩,比对空间域压缩更为有效。 因为在频域中相关性明显下降,能量主要集中于少数低频分量系数上。 通常采用正交变换。例如傅里叶变换、沃尔什变换、离散余弦变换等。以傅里叶变换为例,变换具有能量集中于少数低频系数、各系数不相关、高频分量衰减很快且能量较小等性质。这些性质都可以用于图像数据压缩。,2019/4/
15、27,5.7 视频图像编码简介,国际标准化组织(ISO) 国际电工委员会(IEC) 国际电信联盟(ITU) 国际电报电话咨询委员会(CCITT)等国际组织积极致力于图像处理的标准化工作。 特别是图像编码,涉及到多媒体、数字电视、可视电话、会议电视等图像传输方面的广泛应用,为此制定的国际标准极大地推动了图像编码技术的发展与应用。这些图像编码的国际标准有:JPEG、MPEG、H.26x等标准。,2019/4/27,5.7.1 JPEG标准,1986年,ISO和CCITT成立了“联合图片专家组”(Joint Photographic Expert Group),主要任务是研究静止图像压缩算法的国际标
16、准。 JPEG标准制定的以自适应离散余弦变换编码(ADCT)为基础的“连续色调静止图像压缩编码” 于1991年3月正式提出。,2019/4/27,5.7.2 MPEG标准,1987年,ISO和CCITT成立了“活动图像专家组”(Moving Picture Expert Group),任务是制定用于数字存储媒介中活动图像及伴音的标码标准。 1991年11月提出了1.5Mb/s的编码方案。1992年通过了ISO11172号建议,即MPEG标准。MPEG标准主要由视频、音频和系统三个部分组成,是一个完整的多媒体压缩编码方案。 MPEG标准阐明了编解码过程,严格规定了编码后产生的数据流的句法结构,但
17、是并没有规定编解码的算法。,2019/4/27,5.7.2 MPEG标准,1MPEG-1标准MPEG-1标准为1.5Mbit/s数字存储媒体上的活动图像及其伴音的编码。标准主要包括:系统、视频、音频、一致性、参考软件等五部分,这五部分的简单描述如下。,2019/4/27,5.7.2 MPEG标准,1MPEG-1标准 第一部分:MPEG-1系统,主要描述如何将符合该标准的视频和音频的一路或多路数据流与定时信息相结合,形成单一的复合流。 第二部分:MPEG-1视频,描述视频编码方法,以便存储压缩的数字视频。 第三部分:MPEG-1音频,描述高质量的音频的编码表示和高质量音频信号的解码方法。 第四部
18、分:一致性,描述测试一个编码码流是否符合MPEG-1码流的方法。 第五部分:参考软件。,2019/4/27,5.7.2 MPEG标准,2MPEG-2标准MPEG-2标准是MPEG于1995年推出的第二个国际标准,标准号是ISO/IEC 13818,题目是通用的活动图像及其伴音的编码。 它主要包括:系统、视频、音频、一致性、参考软件、数字存储媒体的命令与控制(DSM-CC)、高级音频编码、10bit视频编码、实时接口等9个部分。,2019/4/27,5.7.2 MPEG标准,视频部分和ITU-T的H.262标准等同,作为一个通用的编码标准,它的应用范围更广,既包括标准数字电视、高清晰度电视,也包
19、括MPEG-1的工作范围。MPEG-1成为MPEG-2的一个子集,即MPEG-2的解码器可以对MPEG-1码流进行编码。 MPEG-2的视频编码方案与MPEG-1相类似,在编码比特流的分层次组织上也有类似的地方。根据应用的不同,MPEG-2的码率范围为1.5100Mbit/s,一般情况下,只有码率超过4Mbit/s的MPEG-2视频质量才能明显优于MPEG-1。 MPEG-2在区别不同应用的编码参数上使用了所谓Profile和Level。国内的技术翻译上将其称为档次和级别,或称为型和级。表5.3列出了MPEG-2的型和级。,2019/4/27,2MPEG-2标准,编码的可分级性为了扩大应用范围
20、和增强对各种信道的适应性,MPEG-2引入了三种编码的可分级性、即空间可分级性、时间可分级性以及信噪比(SNR)可分级性。可分级编码的特点是整个码流被分为基本码流和增强码流两部分,基本码流可以提供一般质量的重建图像,但如果解码器“叠加”上增强部分的码流,就可以将图像质量提高很多。,2019/4/27,可分可分级编码的优点是同时提供不同的编码服务水平例。 如可以在一个公共的信道实现HDTV(High Definition Television,高清晰度电视)和SDTV的同播,以供不同水平的接收机使用,但代价是要增加一定的额外码字。此外,MPEG-2还允许空间分级、时间分级以及SNR分级等以各种方
21、式结合,形成多层次的分级扩展。,3MPEG-4标准,MPEG-4是1999年12月通过的一个适应各种多媒体应用的“视听对象的编码”标准,国际标号是ISO/IEC14496。它主要包括:系统、视觉信息、音频、一致性、参考软件、多媒体传送集成框架、优化软件、IP中的一致性、参考硬件描述等9个部分。 与MPEG-1、MPEG-2不同,MPEG-4不仅仅着眼于定义不同码流下具体的压缩编码标准,而是更多地强调多媒体通信的灵活性和交互性。一方面MPEG-4要求有高效的压缩编码方法,另一方面MPEG-4要求有独立于网络的基于视频、音频对象的交互性。,2019/4/27,5.7.3 H.261标准,1. 编码
22、方案的提出 1990年通过H.261建议“ 视听业务的视频编解码器”,其中p=130,覆盖了整个窄带ISDN的基群信道速率。当H.261用于可视电话时,p=2速率只有128kb/s,当H.261标准用于会议电视时,建议p6,速率384kbit/s,最高可达2048kbit/s。,2019/4/27,5.7.3 H.261标准,H.261 的编码方案,其中p=130,对应的比特率为 。 首次采用了 块的DCT变换去除空间相关性。 采用帧间运动补偿预测方法去除时间相关性的混合编码模式。这个编码标准初步解决了静止图像、可视电话、会议电视、多媒体视频的压缩编码的需要。 从采用的技术来看,采用了最基本的
23、编码技术,通过组合应用,达到了预期的编码效果。这些编码方法都属于混合编码的范畴。 H.261标准规定了视频输入信号的数据格式、编码输出码流的层次结构以及开放的编码控制与实现策略等技术。,2019/4/27,5.7.4 H.263标准,H.263标准制定于1995年,是国际电信联盟针对64kbit/s以下的低比特率视频应用而制定的标准。 基本算法在H.261的基础上进行了改进。因此具有更好的编码性能。在比特率低于64kbit/s时,H.263可以获得34db的质量改善。 H.263支持更多的图像格式、更有效的图像预测、效率更高的三维可变长编码代替二维可变长编码,增加了四个可选模式。,2019/4/27,5.7.5 H.264标准,H.264视频压缩算法与MPEG-4相比,压缩比可提高近30%。 H.264是DPCM和变换编码的混合编码模式。 在相同的重建图像质量下,比H.263节约50%左右的码率,更适合窄带传输。加强了对各种信道的适应能力,采用了“网络友好的”的结构和语法,有利于对误码和丢包的处理;应用目标范围较宽,以满足不同速率及不同传输和存储场合的需求;它的基本系统是开放的,使用无需版权。 为了对各种视频压缩标准进行比较,表5.7总结了视频压缩标准发展历程。,2019/4/27,