数据压缩实验指导书.doc-道客多多

资源描述

1、目录实验一用 C/C+语言实现游程编码 .2实验二用 C/C+语言实现算术编码 .4实验三用 C/C+语言实现 LZW 编码 10实验四用 C/C+语言实现 2D-DCT 变换 132实验一用 C/C+语言实现游程编码1. 实验目的1) 通过实验进一步掌握游程编码的原理；2) 用C/C+语言实现游程编码。2. 实验要求给出数字字符，能正确输出编码。3. 实验内容现实中有许多这样的图像，在一幅图像中具有许多颜色相同的图块。在这些图块中，许多行上都具有相同的颜色，或者在一行上有许多连续的象素都具有相同的颜色值。在这种情况下就不需要存储每一个象素的颜色值，而仅仅存储一个象素的颜色值，

2、以及具有相同颜色的象素数目就可以，或者存储一个象素的颜色值，以及具有相同颜色值的行数。这种压缩编码称为游程编码，常用(run length encoding，RLE)表示，具有相同颜色并且是连续的象素数目称为游程长度。为了叙述方便，假定一幅灰度图像，第 n 行的象素值为：用 RLE 编码方法得到的代码为：08138501408。代码中用黑体表示的数字是游程长度，黑体字后面的数字代表象素的颜色值。例如黑体字 50 代表有连续 50 个象素具有相同的颜色值，它的颜色值是 8。对比 RLE 编码前后的代码数可以发现，在编码前要用 73 个代码表示这一行的数据，而编码后只要用 11 个代码表示代表原来

3、的 73 个代码，压缩前后的数据量之比约为 7:1，即压缩比为 7:1。这说明 RLE 确实是一种压缩技术，而且这种编码技术相当直观，也非常经济。RLE 所能获得的压缩比有多大，这主要是取决于图像本身的特点。如果图像中具有相同颜色的图像块越大，图像块数目越少，获得的压缩比就越高。反之，压缩比就越小。译码时按照与编码时采用的相同规则进行，还原后得到的数据与压缩前的数据完全相同。因此，RLE 是无损压缩技术。RLE 压缩编码尤其适用于计算机生成的图像，对减少图像文件的存储空间非常有效。然而，RLE 对颜色丰富的自然图像就显得力不从心，在同一行上具有相同颜色的连续象素往往很少，而连续几行都具有相同颜

4、色值的连续行数就更少。如果仍然使用 RLE 编码方法，不仅不能压缩图像数据，反而可能使原来的图像数据变得更大。请注意，这并不是说 RLE3编码方法不适用于自然图像的压缩，相反，在自然图像的压缩中还真少不了 RLE，只不过是不能单纯使用 RLE 一种编码方法，需要和其他的压缩编码技术联合应用。4、思考题：如果是英文字符，应该从哪几方面去进行考虑？是否所有的字符都要 RLE 编码方法来进行编码？如何区分字符与重复因子？4实验二用 C/C+语言实现算术编码1. 实验目的1) 通过实验进一步掌握算术编码的原理；2) 用C/C+语言实现算术编、解码。2. 实验要求1) 能正确进行码字刷新及区间刷新；2

5、) 合理输出码字；3) 能正确解码。3. 实验内容过程 1 假设信源符号为00, 01, 10, 11，这些符号的概率分别为 0.1, 0.4, 0.2, 0.3 ，根据这些概率可把间隔0, 1)分成 4 个子间隔：0, 0.1), 0.1, 0.5), 0.5, 0.7), 0.7, 1)，其中表示半开放间隔，即包含不包含。上面的信息可综合在表 1 中。表 1 信源符号，概率和初始编码间隔符号 00 01 10 11 概率 0.1 0.4 0.2 0.3 初始编码间隔0, 0.1) 0.1, 0.5)0.5, 0.7)0.7, 1) 如果二进制消息序列的输入为：10 00 11 00

6、10 11 01。编码时首先输入的符号是 10，找到它的编码范围是0.5, 0.7)。由于消息中第二个符号 00 的编码范围是0, 0.1)，因此它的间隔就取0.5, 0.7)的第一个十分之一作为新间隔0.5, 0.52)。依此类推，编码第 3 个符号 11 时取新间隔为0.514, 0.52)，编码第 4 个符号 00 时，取新间隔为0.514, 0.5146)，。消息的编码输出可以是最后一个间隔中的任意数。整个编码过程如图 1 所示。5图 1 算术编码过程举例这个例子的编码和译码的全过程分别表示在表 4-05 和表 4-06 中。根据上面所举的例子，可把计算过程总结如下。考虑一个有 M

7、个符号的字符表集，假设概率，而。输入符号用表示，第个子间隔的范围用表示。其中，和，表示间隔左边界的值, 表示间隔右边界的值，表示间隔长度。编码步骤如下：步骤 1：首先在 1 和 0 之间给每个符号分配一个初始子间隔，子间隔的长度等于它的概率，初始子间隔的范围用， )表示。令，和。步骤 2：L 和 R 的二进制表达式分别表示为：和其中和等于“1”或者“0”。比较和：如果，不发送任何数据，转到步骤 3；如果，就发送二进制符号。比较和：如果，不发送任何数据，转到步骤 3；如果，就发送二6进制符号。这种比较一直进行到两个符号不相同为止，然后进入步骤 3，

8、步骤 3：加 1，读下一个符号。假设第个输入符号为，按照以前的步骤把这个间隔分成如下所示的子间隔：令，和，然后转到步骤 2。表 2 编码过程步骤输入符号编码间隔编码判决1 10 0.5, 0.7) 符号的间隔范围0.5, 0.7) 2 00 0.5, 0.52) 0.5, 0.7)间隔的第一个 1/103 11 0.514, 0.52) 0.5, 0.52)间隔的最后一个 1/104 00 0.514, 0.5146) 0.514, 0.52)间隔的第一个 1/105 10 0.5143, 0.51442)0.514, 0.5146)间隔的第五个 1/10 开始，二个 1/10

9、6 11 0.514384, 0.51442)0.5143, 0.51442)间隔的最后 3 个 1/107 01 0.5143836, 0.514402)0.514384, 0.51442)间隔的 4 个 1/10，从第 1 个 1/10 开始8 从0.5143876, 0.514402 中选择一个数作为输出：0.5143876表 3 译码过程步骤间隔译码符号译码判决 1 0.5, 0.7) 10 0.51439 在间隔 0.5, 0.7)2 0.5, 0.52) 00 0.51439 在间隔 0.5, 0.7)的第 1 个 1/103 0.514, 0.52) 11 0.51439

10、在间隔0.5, 0.52)的第 7 个 1/104 0.514, 0.5146) 00 0.51439 在间隔0.514, 0.52)的第 1 个 1/105 0.5143, 0.51442) 10 0.51439 在间隔0.514, 0.5146)的第 5 个 1/106 0.514384, 0.51442)11 0.51439 在间隔0.5143, 0.51442)的第 7 个1/107 0.51439, 0.5143948)01 0.51439 在间隔0.51439, 0.5143948)的第 1个 1/107 译码的消息：10 00 11 00 10 11 017过程 2 假设有 4

11、个符号的信源，它们的概率如表 4 所示：表 4 符号概率信源符号 ai概率初始编码间隔0, 0.5)0.5, 0.75)0.75, 0.875)0.875, 1)输入序列为。它的编码过程，现说明如下。输入第 1 个符号是，可知，定义初始间隔， )0.5, 0.75)，由此可知，左右边界的二进制数分别表示为：L0.5=0.1(B)，R0.70.11 (B) 。按照步骤 2，，发送 1。因，因此转到步骤 3。输入第 2 个字符，，它的子间隔， )0.5, 0.625)，由此可得 =0.125。左右边界的二进制数分别表示为：L0.5=0.100 (B)，R0.101 (B)。按照

12、步骤 2，，发送 0，而和不相同，因此在发送 0 之后就转到步骤 3。输入第 3 个字符，， , 它的子间隔 , )0.59375, 0.609375)，由此可得 =0.015625。左右边界的二进制数分别表示为： 0.59375=0.10011 (B)， 0.609375=0.100111 (B)。按照步骤2，，，，但和不相同，因此在发送 011 之后转到步骤 3。发送的符号是：10011。被编码的最后的符号是结束符号。8图 2 算术编码概念就这个例子而言，算术编码器接受的第 1 位是“1”，它的间隔范围就限制在0.5, 1)，但在这个范围里有 3 种可能的码符 , 和，

13、因此第 1 位没有包含足够的译码信息。在接受第 2 位之后就变成“10”，它落在0.5, 0.75) 的间隔里，由于这两位表示的符号都指向开始的间隔，因此就可断定第一个符号是。在接受每位信息之后的译码情况如下表 5 所示。表 5 译码过程表接受的数字间隔译码输出1 0.5, 1) -0 0.5, 0.75)0 0.5, 0.609375)1 0.5625, 0.609375) -1 0.59375, 0.609375) 在上面的例子中，我们假定编码器和译码器都知道消息的长度，因此译码器的译码过程不会无限制地运行下去。实际上在译码器中需要添加一个专门的终止符，当译码器看到终止符时就停止译

14、码。在算术编码中需要注意的几个问题：91) 由于实际的计算机的精度不可能无限长，运算中出现溢出是一个明显的问题，但多数机器都有 16 位、32 位或者 64 位的精度，因此这个问题可使用比例缩放方法解决。 2) 算术编码器对整个消息只产生一个码字，这个码字是在间隔0, 1)中的一个实数，因此译码器在接受到表示这个实数的所有位之前不能进行译码。 3) 算术编码也是一种对错误很敏感的编码方法，如果有一位发生错误就会导致整个消息译错。算术编码可以是静态的或者自适应的。在静态算术编码中，信源符号的概率是固定的。在自适应算术编码中，信源符号的概率根据编码时符号出现的频繁程度动态地进行修改，在编码期间估算

15、信源符号概率的过程叫做建模。需要开开发态算术编码的原因是因为事先知道精确的信源概率是很难的，而且是不切实际的。当压缩消息时，我们不能期待一个算术编码器获得最大的效率，所能做的最有效的方法是在编码过程中估算概率。因此动态建模就成为确定编码器压缩效率的关键。10实验三用 C/C+语言实现 LZW 编码1. 实验目的1) 通过实验进一步掌握LZW编码的原理；2) 用C/C+语言实现LZW编、解码。2. 实验要求给出字符，能正确输出编码，并能进行译码。3. 实验内容1) 编码过程LZW 编码是围绕称为词典的转换表来完成的。这张转换表用来存放称为前缀(Prefix)的字符序列，并且为每个表项分配一个码

16、字(Code word)，或者叫做序号，如表 6 所示。这张转换表实际上是把 8 位 ASCII 字符集进行扩充，增加的符号用来表示在文本或图像中出现的可变长度 ASCII 字符串。扩充后的代码可用 9 位、10 位、11 位、12 位甚至更多的位来表示。Welch 的论文中用了 12 位，12 位可以有 4096 个不同的 12 位代码，这就是说，转换表有 4096 个表项，其中 256 个表项用来存放已定义的字符，剩下 3840 个表项用来存放前缀(Prefix)。表 6 词典码字( Code word) 前缀( Prefix)1 193 A194 B 255 1305 abcdefxyF

17、01234 LZW 编码器(软件编码器或硬件编码器)就是通过管理这个词典完成输入与输出之间的转换。LZW 编码器的输入是字符流(Charstream) ，字符流可以是用 8 位 ASCII 字符组成的字符串，而输出是用 n 位(例如 12 位) 表示的码字流(Codestream)，码字代表单个字符或多个字符组成的字符串。LZW 编码器使用了一种很实用的分析(parsing)算法，称为贪婪分析算法(greedy parsing algorithm)。在贪婪分析算法中，每一次分析都要串行地检查来自字符流(Charstream)的字符串，从中分解出已经识别的最长的字符串，也就是已经在词典中出现的最

18、长的前缀(Prefix)。用已知的前缀(Prefix)加上下一个输入字符 C 也就是当前字符 (Current character)作为该前缀11的扩展字符，形成新的扩展字符串缀-符串(String)：Prefix.C。这个新的缀- 符串(String)是否要加到词典中，还要看词典中是否存有和它相同的缀-符串 String。如果有，那么这个缀-符串(String)就变成前缀(Prefix)，继续输入新的字符，否则就把这个缀-符串(String)写到词典中生成一个新的前缀(Prefix) ，并给一个代码。LZW 编码算法的具体执行步骤如下：步骤 1：开始时的词典包含所有可能的根(Root)，而

19、当前前缀 P 是空的；步骤 2：当前字符(C) ：=字符流中的下一个字符；步骤 3：判断缀-符串 P+C 是否在词典中(1) 如果“是”：P ：= P+C / (用 C 扩展 P) ；(2) 如果“否” 把代表当前前缀 P 的码字输出到码字流; 把缀-符串 P+C 添加到词典; 令 P ：= C /(现在的 P 仅包含一个字符 C);步骤 4：判断码字流中是否还有码字要译(1) 如果“是”，就返回到步骤 2；(2) 如果“否” 把代表当前前缀 P 的码字输出到码字流; 结束。译码过程LZW 译码算法中还用到另外两个术语：当前码字(Current code word)：指当前正在处理的码字

20、，用 cW 表示，用 string.cW 表示当前缀-符串；先前码字(Previous code word)：指先于当前码字的码字，用 pW 表示，用 string.pW 表示先前缀- 符串。LZW 译码算法开始时，译码词典与编码词典相同，它包含所有可能的前缀根( roots)。LZW算法在译码过程中会记住先前码字(pW) ，从码字流中读当前码字(cW )之后输出当前缀-符串string.cW，然后把用 string.cW 的第一个字符扩展的先前缀- 符串 string.pW 添加到词典中。LZW 译码算法的具体执行步骤如下：步骤 1：在开始译码时词典包含所有可能的前缀根(Root)。步骤

21、2： cW ：=码字流中的第一个码字。步骤 3：输出当前缀-符串 string.cW 到字符流。步骤 4：先前码字 pW ：= 当前码字 cW。步骤 5：当前码字 cW ：= 码字流中的下一个码字。步骤 6：判断先前缀-符串 string.cW 是否在词典中(1) 如果“是”，则：把先前缀-符串 string.cW 输出到字符流。当前前缀 P ：= 先前缀-符串 string.pW。当前字符 C ：= 当前前缀-符串 string.cW 的第一个字符。把缀-符串 P+C 添加到词典。(2) 如果“否”，则：当前前缀 P ：= 先前缀-符串 string.pW。当前字符 C

22、：= 当前当缀 P 的第一个字符。输出缀-符串 P+C 到字符流，然后把它添加到词典中。步骤 7：判断码字流中是否还有码字要译(1) 如果“是”，就返回到步骤 4。(2) 如果“否”, 结束。12过程编码字符串如表 7 所示，编码过程如表 8 所示。现说明如下：“步骤”栏表示编码步骤； “位置”栏表示在输入数据中的当前位置； “词典”栏表示添加到词典中的缀-符串，它的索引在括号中； “输出”栏表示码字输出。表 7 被编码的字符串位置 1 2 3 4 5 6 7 8 9字符 A B B A B A B A C表 8 LZW 的编码过程步骤位置词典输出(1) A (2) B (3) C

23、 1 1 (4) A B (1)2 2 (5) B B (2)3 3 (6) B A (2)4 4 (7) A B A (4)5 6 (8) A B A C (7)6 - - - (3)表 9 解释了译码过程。每个译码步骤译码器读一个码字，输出相应的缀-符串，并把它添加到词典中。例如，在步骤 4 中，先前码字(2)存储在先前码字 (pW)中，当前码字( cW)是(4)，当前缀-符串 string.cW 是输出 (“A B”)，先前缀- 符串 string.pW (“B“)是用当前缀- 符串string.cW (“A“)的第一个字符，其结果(“ B A“) 添加到词典中，它的索引号是(6)表 9

24、 LZW 的译码过程步骤代码词典输出(1) A (2) B (3) C 1 (1) - - A2 (2) (4) A B B3 (2) (5) B B B4 (4) (6) B A A B5 (7) (7) A B A A B A 6 (3) (8) A B A C C13实验四用 C/C+语言实现 2D-DCT 变换1. 实验目的1) 通过实验进一步掌握2D-DCT变换的原理；2) 用C/C+语言实现2D-DCT变换，并能进行逆变换。2. 实验要求输入一个88数组，实现2D-DCT变换，并能进行逆变换。3. 实验内容DCT 算法的实质是：压缩 88 图像块灰度样本数据流。原图像在输入

25、到编码器之前，被分割成一系列顺序排列的由 88 像点构成的数据块，同时把作为原始采样数据的无符号整数转换成有符号证书，这一过程叫做“正交换” 。若采样精度为 9 为，则采样数据的范围是02 p-1 ，经过正变换后，其范围是-2 p-1 2p-1 -1，该范围作为编码器的输入。还原图像时，解码器输出端的数值范围是-2 p-1 2p-1 -1，经过逆变换，把数值范围还原成 0 2p -1，以次从新建立图像。原图像的 8*8 样本块由 64 个像点构成，64 个像点实质上是 64 个离散信号，是空间范围 X 和 Y 的函数。输入时，经过正变换，将 64 个离散信号译码成 64 个正交基信号，每个正交

26、基信号包含一个二维空间频率，然后以 64 个 DCT 系数的形式进行编码，这个过程就是数据压缩过程。解码时，压缩的图像数据送至解码器，经过逆变换，把 64 个 DCT 系数重新建立成 64个像点的图像。不过由于运算误差和系数的量化，因而重建过程不是很精确，64 个像点与原图存在差异。(a)x 邻域（ b）预测方式熵编码器采用 Huffman 编码或算术编码。离散余弦变换（）首先把原始图像顺序分割成 88 子块;（）采样精度为 P 位(二进制),把0,2 p-1范围的无符号数变换成-2p-1,2p-1范围的有符号数,作为离散余弦正变换(forward DCT,FDCT)的输入;（）在输出端经离散余弦逆变换（inverse DCT,IDCT）后又得到一系列 88 子块，需将数值范围 12,p变换回 12,0p来构图像。c ba x选择值预测选择值预测0123非预测abc4 567a+b-ca+(b-c)/2b+(a-c)/2(a+b)/214 70 16)2(cos16).2(cos).,()(41),(x uyuxyfvCuvF 88IDCT 的数学定义为： 70 )(cs)(cs),()(),(uv vyxvuFyxf其中： ,21)(,C当 0,vu其他提高要求：能对静止图像做DCT变换，以分析变换域中的能量分布。

展开阅读全文