1、哈夫曼编码邹 健,回顾:通信系统模型,信源:产生消息和消息序列的来源。 信源编码器:将信源的输出进行适当的变换,以提高信息传输的有效性。,回顾:信源编码定理,信源编码定理(定理2.4.1)设X1,X2为无记忆信源,服从共同分布p(x) ,则当码率 时,存在码率为R 的编码,使得当n 时,误差码率Pe0.,最优码的存在性,如何构造最优码?,回顾:最优码的构造,等长码:每个码字的码长相等,变长编码:每个码字的码长可以不相等,引例色子游戏,顺序编码 是否最优?,引例色子游戏,点数出现的频率,引例色子游戏,按概率编码,引例莫尔斯电报码,莫尔斯电报码:按照英文字母出现的概率编码, 在英文中,e的出现概率
2、很高,而z的出现概率则最低。,思考:国际求救信号SOS,哈夫曼编码,1952年,David A. Huffman在麻省理工攻读博士时发表了一种构建极小多余编码的方法(A Method for the Construction of Minimum-Redundancy Codes)一文,提出Huffman编码算法。,哈夫曼编码(Huffman Coding),是可变长编码(VLC)的一种,哈夫曼编码,哈夫曼编码(Huffman Coding),基本思想,完全依据字符出现概率进行编码 出现概率高的字符使用较短的编码 出现概率低的字符使用较长的编码 编码后平均码字长最短,哈夫曼编码,哈夫曼编码算法
3、: (1) 信源符号按概率分布大小,以递减次序排列; (2) 取两个最小的概率,分别赋以“0”,“1”; 然后把这两个概率值相加,作为新概率值与其他概率重新排序 (3) 按重排概率值,重复(2),直到概率和达到1为止 (4) 由后向前排列码序,即得哈夫曼编码,例题,例题: 设一个信源变量X 服从以下概率分布设计二进哈夫曼编码,X:p(x)(0.4,0.2,0.2,0.1,0.1),例题,方法一:,x1 0.4 x2 0.2x3 0.2x4 0.1x5 0.1,01,1,000,0010,0011,合并后概率下放,例题,方法二:,合并后概率上放,00 x1 0.4 10 x2 0.2 11 x3
4、 0.2 010 x4 0.1 011 x5 0.1 两法平均码长相同,故信息率R、冗余度相同;,例题,两种方法的比较,码方差,平均码长,例题,可见:第二种编码方法的码长方差要小许多。意味着第二种编码方法的码长变化较小,比较接近于平均码长。 第一种方法编出的5个码字有4种不同的码长; 第二种方法编出的码长只有两种不同的码长; 显然,第二种编码方法更简单、更容易实现,所以更好。,结论,结论:在哈夫曼编码过程中,对缩减信源符号按概率由大到小的顺序重新排列时,应使合并后的新符号尽可能排在靠前的位置,这样可使合并后的新符号重复编码次数减少,使短码得到充分利用。,结论,定理:在变长编码中,若各码字长度严
5、格按照所对应符号出现概率的大小逆序排列,则其平均长度为最小。结论:哈夫曼编码方法,它完全依据字符出现概率来构造平均长度最短的异字头码字,有时称之为最佳编码。,哈夫曼编码的应用,无损压缩在计算机信息处理中,“哈夫曼编码”是一种一致性编码法(又称“熵编码法”),用于数据的无损耗压缩。这一术语是指使用一张特殊的编码表将源字符(例如某文件中的一个符号)进行编码。这张编码表的特殊之处在于,它是根据每一个源字符出现的估算概率而建立起来的(出现概率高的字符使用较短的编码,反之出现概率低的则使用较长的编码,这便使编码之后的字符串的平均期望长度降低,从而达到无损压缩数据的目的)。实际上,哈夫曼编码是传真图像的压缩标准。,哈夫曼编码的缺点,单个字母编码时编码效率不高,信源字母集大时不易实现(香农-费诺码可解决),硬件实现时需要缓冲寄存器(变长码固有的缺陷),差错扩散(可增加信道校验码),必须知道信源的统计特性(通用信源编码不需要),谢谢各位老师!,