1、1,第1章 绪论 第2章 线性表 第3章 栈和队列 第4章 串 第5章 数组和广义表 第6章 树和二叉树 第7章 图 第9章 查找 第10章 排序,目 录,2,第6章 树和二叉树(Tree & Binary Tree),6.1 树的基本概念 6.2 二叉树 6.3 遍历二叉树和线索二叉树 6.4 树和森林 6.5 赫夫曼树及其应用,特点:非线性结构,一个直接前驱,但可能有多个直接后继。,(一对多,或称1:n),3,6.1 树的基本概念,6.1.1 树的定义 6.1.2 若干术语 6.1.3 逻辑结构 6.1.4 存储结构 6.1.5 树的运算,4,6.1.1 树的定义,注1:过去许多书籍中都定
2、义树为n1,曾经有“空树不是树”的说法,但现在树的定义已修改。 注2:树的定义具有递归性,即“树中还有树”。,由一个或多个(n0)结点组成的有限集合T,有且仅有一个结点称为根(root),当n1时,其余的结点分为m(m0)个互不相交的有限集合T1,T2,Tm。每个集合本身又是棵树,被称作这个根的子树 。,5,6.1.2 若干术语,即上层的那个结点(直接前驱) 即下层结点的子树的根(直接后继) 同一双亲下的同层结点(孩子之间互称兄弟) 即双亲位于同一层的结点(但并非同一双亲) 即从根到该结点所经分支的所有结点 即该结点下层子树中的任一结点,根 叶子森林有序树 无序树,即根结点(没有前驱) 即终端
3、结点(没有后继) 指m棵不相交的树的集合(例如删除A后的子树个数),双亲 孩子 兄弟 堂兄弟 祖先 子孙,结点各子树从左至右有序,不能互换(左为第一) 结点各子树可互换位置。,6,即树的数据元素 结点挂接的子树数,结点 结点的度结点的层次 终端结点 分支结点,树的度 树的深度 (或高度),从根到该结点的层数(根结点算第一层) 即度为0的结点,即叶子 即度不为0的结点(也称为内部结点),所有结点度中的最大值(Max各结点的度) 指所有结点中最大的层数(Max各结点的层次),问:右上图中的结点数 ;树的度 ;树的深度,13,3,4,(有几个直接后继就是几度,亦称“次数”),7,树的抽象数据类型定义
4、,(见教材P118-119),ADT Tree 数据对象D: 数据关系R:基本操作 P: ADT Tree,D是具有相同特性的数据元素的集合。 若D为空集,则称为空树;/允许n=0 若D中仅含一个数据元素,则R为空集; 其他情况下的R存在二元关系: root 唯一 /关于根的说明 DjDk= /关于子树不相交的说明 /关于数据元素的说明/至少有15个,如求树深,求某结点的双亲,8,6.1.3 树的逻辑结构,一对多(1:n),有多个直接后继(如家谱树、目录树等等),但只有一个根结点,且子树之间互不相交。,6.1.4 树的存储结构,讨论1:树是非线性结构,该怎样存储?,特点:,仍然有顺序存储、链式
5、存储等方式。,9,讨论3:树的链式存储方案应该怎样制定?,复原困难,可用多重链表:一个前趋指针,n个后继指针。细节问题: 树中结点的结构类型样式该如何设计?即应该设计成“等长”还是“不等长”?缺点: 等长结构太浪费(每个结点的度不一定相同);不等长结构太复杂(要定义好多种结构类型)。,可否规定为:,从上至下、从左至右将树的结点依次存入内存。,有重大缺陷:,不能唯一复原就没有实用价值!,讨论2:树的顺序存储方案应该怎样制定?,困惑:到底应当开多少个链域?,补充:树的5种表示法:,图形表示法 嵌套集合表示法 广义表表示法 凹入表示法 左孩子右兄弟表示法,意义:把一般的树转化为最简单、最有规律的二叉
6、树再研究,然后设法从二叉树再转回多叉树。,11,图形表示法,湖北理工学院,叶子,根,子树,12,嵌套集合表示法,13,( A ( B ( E ( K, L ), F ), C ( G ), D ( H ( M ), I, J ) ) 约定: 根作为由子树森林组成的表的名字写在表的左边,广义表表示法,14,凹入表示法,又称目录表示法,15,左孩子右兄弟表示法,意义:多叉树转为二叉树!,16,方法:加线抹线旋转,树转二叉树举例:,兄弟相连,长兄为父,孩子靠左,特点是? 根结点没有右孩子!,17,讨论:二叉树怎样还原为树?,要点:逆操作,把所有右孩子变为兄弟!,18,6.1.5 树的运算,要明确:
7、1. 普通树(即多叉树)若不转化为二叉树,则运算很难实现。 2. 二叉树的运算仍然是插入、删除、修改、查找、排序等,但这些操作必须建立在对树结点能够“遍历”的基础上!,本章重点: 二叉树的表示和实现,遍历指每个结点都被访问且仅访问一次,不遗漏不重复,19,6.2 二叉树,为何要重点研究每结点最多只有两个 “叉” 的树? 二叉树的结构最简单,规律性最强; 可以证明,所有树都能转为唯一对应的二叉树,不失一般性。,6.2.1 二叉树的定义 6.2.2 二叉树的性质 6.2.3 二叉树的存储结构,注:二叉树最重要的运算是:遍历!,20,6.2.1 二叉树的定义,定义:是n(n0)个结点的有限集合,由一
8、个根结点以及两棵互不相交的、分别称为左子树和右子树的二叉树组成 。 逻辑结构: 一对二(1:2) 基本特征: 每个结点最多只有两棵子树(不存在度大于2的结点); 左子树和右子树次序不能颠倒。,问:具有3个结点的二叉树可能有几种不同形态?,有5种,基本形态:,一般的树有几种?,21,二叉树的抽象数据类型定义(见教材P121-122),ADT BinaryTree 数据对象D: 数据关系R:基本操作 P: ADT BinaryTree,D是具有相同特性的数据元素的集合。 若D=,则R= ; 若D,则R= H;存在二元关系: root 唯一 /关于根的说明 DjDk= /关于子树不相交的说明 /关于
9、数据元素的说明 /关于左子树和右子树的说明/至少有20个,如返回某结点的左孩子,或中序遍历,等等,22,6.2.2 二叉树的性质 (3+2),讨论1:第i层的结点数最多是多少?(利用二进制性质可轻松求出),性质1: 在二叉树的第i层上至多有2i-1个结点(i0)。,性质2: 深度为k的二叉树至多有2k-1个结点(k0)。,再提问:第i层上至少有 个结点?,1,讨论2:深度为k的二叉树,最多有多少个结点?(利用二进制性质可轻松求出),2i-1个,2k-1个,23,3. 深度为9的二叉树中至少有 个结点。)9 )8 ) )91,2.深度为的二叉树的结点总数,最多为 个。)k-1 ) log2k )
10、 k )k,1. 树中各结点的度的最大值称为树的 。) 高度 ) 层次 ) 深度 ) 度,D,C,C,课堂练习:,24,性质3: 对于任何一棵二叉树,若2度的结点数有n2个,则叶子数(n0)必定为n21 (即n0=n2+1),证明: 二叉树中全部结点数nn0+n1+n2(叶子数1度结点数2度结点数) 又二叉树中全部结点数nB+1 ( 总分支数根结点 )(除根结点外,每个结点必有一个直接前趋,即一个分支) 而 总分支数B= n1+2n2 (1度结点必有1个直接后继,2度结点必有2个) 三式联立可得: n0+n1+n2= n1+2n2 +1, 即n0=n2+1,物理意义:叶子数2度结点数1,讨论:
11、二叉树的叶子数和度为2的结点数之间有关系吗?,25,完全二叉树:深度为k 的、有n个结点的二叉树,当且仅当其每一个结点都与深度为k 的满二叉树中编号从1至n的结点一一对应。,为何要研究这两种特殊形式?,因为它们在顺序存储方式下可以复原!,讨论:满二叉树:一棵深度为k 且有2k -1个结点的二叉树。 (特点:每层都“充满”了结点),解释:完全二叉树的特点是只有最后一层叶子不满,且全部集中在左边。但这其实是顺序二叉树的含义。而图论中的“完全二叉树”是指n1=0的情况。,满二叉树和完全二叉树有什么区别? 答:满二叉树是叶子一个也不少的树,而完全二叉树虽然前k-1层是满的,但最底层却允许在右边缺少连续
12、若干个结点。满二叉树是完全二叉树的一个特例。,26,性质4: 具有n个结点的完全二叉树的深度必为log2n1,性质5: 对完全二叉树,若从上至下、从左至右编号,则编号为i 的结点,其左孩子编号必为2i,其右孩子编号为2i1;其双亲的编号必为i/2(i1 时为根,除外)。,证明:根据性质2,深度为k的二叉树最多只有2k-1个结点,且完全二叉树的定义是与同深度的满二叉树前面编号相同,即它的总结点数n位于k层和k-1层满二叉树容量之间, 即 2k-1-1n2k-1 或2k-1n2k 三边同时取对数,于是有:k-1log2nk 因为k是整数,所以k=log2n +1,可根据归纳法证明。,对于两种特殊形
13、式的二叉树(满二叉树和完全二叉树),还特别具备以下2个性质:,27,一棵完全二叉树有1000个结点,则它必有 个叶子结点,有 个度为2的结点,有 个结点只有非空左子树,有 个结点只有非空右子树。,例:,489,488,1,0,分析题意:已知n=1000,求n0和n2,还要判断末叶子是挂在左边还是右边?,正确答案: 全部叶子数1000/2 =500个。 度为2的结点叶子总数1=499个。 因为最后一个结点坐标是偶数,所以必为左子树。,请注意:叶子结点总数末层叶子数!,28,6.2.3 二叉树的存储结构,一、顺序存储结构 按二叉树的结点“自上而下、从左至右”编号,用一组连续的存储单元存储。,A B
14、 C D E F G H I,问:顺序存储后能否复原成唯一对应的二叉树形状? 答:若是完全/满二叉树则可以做到唯一复原。而且有规律:下标值为i的双亲,其左孩子的下标值必为2i,其右孩子的下标值必为2i1(即性质5)例如,对应2的两个孩子必为4和5,即B的左孩子必是D,右孩子必为E。,T0一般不用,29,讨论:不是完全二叉树怎么办?,答:一律转为完全二叉树! 方法很简单,将各层空缺处统统补上“虚结点”,其内容为空。,A B C D E,缺点:浪费空间;插入、删除不便,30,二、链式存储结构 用二叉链表即可方便表示。,二叉树结点数据类型定义: typedef struct node *tree_p
15、ointer; typedef struct nodeint data;tree_pointer left_child, right_child; node;,一般从根结点开始存储。 (相应地,访问树中结点时也只能从根开始) 注:如果需要倒查某结点的双亲,可以再增加一个双亲域(直接前趋)指针,将二叉链表变成三叉链表。,31,二叉树链式存储举例:,优点:不浪费空间;插入、删除方便,32,6.3 遍历二叉树和线索二叉树,6.3.1 遍历二叉树,遍历定义遍历用途遍历方法,指按某条搜索路线遍访每个结点且不重复(又称周游)。,它是树结构插入、删除、修改、查找和排序运算的前提,是二叉树一切运算的基础和核心
16、。,对每个结点的查看通常都是“先左后右” 。,Traversing Binary Tree,33,遍历规则,二叉树由根、左子树、右子树构成,定义为D、 L、R,以根结点为参照系,注:“先、中、后”的意思是指访问的结点D是先于子树出现还是后于子树出现。,D、 L、R的组合定义了六种可能的遍历方案:LDR, LRD, DLR, DRL, RDL, RLD若限定先左后右,则有三种实现方案:,DLR LDR LRD 先序遍历 中序遍历 后序遍历,34,例1:,先序遍历的结果是: 中序遍历的结果是: 后序遍历的结果是:,D B E A C D E B C A,口诀: DLR先序遍历,即先根再左再右 LD
17、R中序遍历,即先左再根再右 LRD后序遍历,即先左再右再根,A,B,D,E,C,D L R,先序遍历序列:A B D C,先序遍历:,L D R,中序遍历序列:B D A C,中序遍历:,L R D,后序遍历序列: D B C A,后序遍历:,38,先序遍历结果 + * * / A B C D E 前缀表示法中序遍历结果 A / B * C * D + E 中缀表示法后序遍历结果 A B / C * D * E + 后缀表示法层次遍历结果 + * E * D / C A B,例2:用二叉树表示算术表达式,39,中序遍历算法 LDR(node *root) if(root !=NULL)LDR(
18、root-lchild);printf(“%d”,root-data);LDR(root-rchild); return(0);,后序遍历算法 LRD (node *root) if(root !=NULL) LRD(root-lchild);LRD(root-rchild);printf(“%d”,root-data); return(0);,结点数据类型自定义 typedef struct node int data; struct node *lchild,*rchild; node; node *root;,先序遍历算法 DLR( node *root ) if (root !=NUL
19、L) /非空二叉树printf(“%d”,root-data); /访问D DLR(root-lchild); /递归遍历左子树 DLR(root-rchild); /递归遍历右子树 return(0); ,40,对遍历的分析:,1. 从前面的三种遍历算法可以知道:如果将print语句抹去,从递归的角度看,这三种算法是完全相同的,或者说这三种遍历算法的访问路径是相同的,只是访问结点的时机不同。,从虚线的出发点到终点的路径 上,每个结点经过3次。,第1次经过时访问,是先序遍历 第2次经过时访问,是中序遍历 第3次经过时访问,是后序遍历,2. 二叉树遍历的时间效率和空间效率 时间效率:O(n) /
20、每个结点只访问一次 空间效率:O(n) /栈占用的最大辅助空间,精确值:树深为k的递归遍历需要k+1个辅助单元,41,例:【严题集6.42】编写递归算法,计算二叉树中叶子结点的数目。,思路:叶子的特点?左右指针均空! 可选用任何一种遍历算法查找叶子,将其统计并打印出来。,DLR(node *root) /采用先序遍历的递归算法 if ( root!=NULL ) /非空二叉树条件,等效于 if(root)if(!root-lchild ,42,用空格字符表示无孩子或指针为空,如何把二叉树存入电脑内?,怎样建树?见教材P131例,例:将下面的二叉树以二叉链表形式存入计算机内。,考虑1:输入结点时
21、怎样表示“无孩子”? 考虑2:以何种遍历方式来输入和建树?,将二叉树按先序遍历次序输入: A B C D E G F (/n),以先序遍历最为合适,让每个结点都能及时被连接到位。,字符串输完后应当再加一特殊的结束符号(如$),因为 无法惟一表示结束。,43,建树算法: Status CreateBiTree( BiTree /CreateBiTree,输入序列: A B C D E G F ,44,特别讨论:若已知先序(或后序)遍历结果和中序遍历结果,能否“恢复”出二叉树?,例:已知一棵二叉树的中序序列和后序序列分别是BDCEAFHG 和 DECBHGFA,请画出这棵二叉树。 分析: 由后序遍
22、历特征,根结点必在后序序列尾部(即A); 由中序遍历特征,根结点必在其中间,而且其左部必全部是左子树的子孙(即BDCE),其右部必全部是右子树的子孙(即FHG); 继而,根据后序中的DECB子树可确定B为A的左孩子,根据HGF子串可确定F为A的右孩子;以此类推。,【严题集6.31】 请证明:由一棵二叉树的先序序列和中序序列可唯一确定这棵二叉树。,45,已知中序遍历:B D C E A F H G 已知后序遍历:D E C B H G F A,(B D C E),( F H G),A,(D C E),A,B,B,A,C,C,D C E,详细说明:,6.3.2 线索二叉树,所以, 空指针数目2n(
23、n-1)=n+1个。,证明: 因为用二叉链表存储包含n个结点的二叉树,结点必有2n个链域(见二叉链表数据类型说明)。,又因为除根结点外,二叉树中每一个结点有且仅有一个双亲,意即每个结点地址占用了双亲的一个直接后继,n个结点地址共占用了n-1个双亲的指针域。也就是说,只会有n1个结点的链域存放指针。,Threaded Binary Tree,讨论:用二叉链表法(l_child, r_child)存储包含n个结点的二叉树,结点的指针区域中会有多少个空指针?,有n+1个!,结论:用二叉链表法存储包含n个结点的二叉树,结点的指针区域中会有n+1个空指针。 可以用它来存放当前结点的直接前驱和后继等线索,
24、以加快查找速度。这就是线索二叉树的意义和用途。,疑问1:二叉树是1:2的非线性结构,如何定义其惟一的直接后继? 答:要遍历之后才能得到,且不同遍历算法得到的后继也不同。 先依遍历规则把每个结点对应的前驱或后继线索预存起来,这叫做“线索化”。疑问2:获得这种“直接前驱”或“直接后继”有何意义? 答:从任一结点出发都能快速找到其前驱和后继,且不必借助堆栈疑问3:如何经济的(预先)存放这类信息? 答:左孩子/前驱复用,右孩子/后继复用,后者称之为线索,约定:,当Tag域为0时,表示正常情况;,当Tag域为1时,表示线索情况.,前驱(后继),左(右)孩子,为识别复用的两种不同信息,特增加两个标志域:,
25、问:增加了前驱和后继等线索有什么好处?,能方便找出当前结点的前驱和后继,不用堆栈(递归)也能遍历整个树。,疑问4:计算机如何识别是孩子指针还是线索指针?,1. 有关线索二叉树的几个术语:,线索链表:线 索: 线索二叉树:线 索 化:,用含Tag的结点样式所构成的二叉链表 指向结点前驱和后继的指针 加上线索的二叉树 对二叉树以某种次序遍历使其变为线索二叉树的过程,线索化过程就是在遍历过程中修改空指针的过程: 将空的lchild改为结点的直接前驱; 将空的rchild改为结点的直接后继。 非空指针呢?仍然指向孩子结点(称为“正常情况”),A,G,E,I,D,J,H,C,F,B,例:带了两个标志的某
26、先序遍历结果如下表所示,请画出对应的二叉树。,A,Ltag=1表示前驱线索 Rtag=1表示后继线索,悬空? NIL,悬空? NIL,解:对该二叉树中序遍历的结果为: H, D, I, B, E, A, F, C, G 所以添加线索应当按如下路径进行:,为避免悬空态,应增设一个头结点,例1:画出以下二叉树对应的中序线索二叉树。,2. 线索二叉树的生成线索化,线索化过程就是在遍历过程中修改空指针的过程,注:此图中序遍历结果为: H, D, I, B, E, A, F, C, G,对应的中序线索二叉树存储结构如图所示:,例2:【 2000年计算机系考研题】给定如图所示二叉树T,请画出与其对应的中序
27、线索二叉树。,解:因为中序遍历序列是:55 40 25 60 28 08 33 54 对应线索树应当按此规律连线,即在原二叉树中添加虚线。,NIL和NULL的值都是0,区别何在? 在Delphi中NIL用来标记空指针,Null用来表示空的Variant型变量或是ASCII码为0的字符,比如用于标记字符串结束。 在C/C+中定义的宏NULL不加区别的包括了以上两种含义。 可见Object Pascal的语法要比C/C+严谨得多。,线索二叉树的生成算法(递归算法见教材P134-135),目的:在遍历二叉树的过程中修改空指针,添加前驱或后继的线索,使之成为线索二叉树。,为了记下遍历过程中访问结点的先
28、后次序,需要设置两个指针: p指针当前结点之指针;pre指针当前结点的前趋结点指针。,设计技巧:依某种顺序遍历二叉树,对每个结点p,判断其左指针是否为空,以及其前驱结点的右指针是否为空。,每次只修改前驱结点的右指针(后继)和本结点的左指针(前驱),参见算法6.6。,若p-lchildNULL,则p-Ltag=1;p-lchildpre;/p的前驱线索应存p结点的左边 若pre-rchildNULL, 则pre-Rtag1;pre-rchild=p;/pre的后继线索应存pre结点的右边,3. 线索二叉树的遍历(无需堆栈),对于线索二叉树的遍历,只要找到序列中的第一个结点,然后依次访问结点的后继
29、直到后继为空为止。 (因为建立线索时已遍历一次,相当于线性化了!),难点:在线索化二叉树中,并不是每个结点都能直接找到其后继的,当标志为0时,则需要通过一定运算才能找到它的后继。,以中序线索二叉树为例: 当RTag=1时,直接后继指针就在其rchild域内; 当RTag=0时,直接后继是当前结点右子树最左下方的结点;,请注意中序遍历规则是LDR,先左再根再右,5)当RTag=0时(表示有右孩子) ,此时应当从该结点的右孩子开始(p=p-rchild)查找左下角的子孙结点;即重复2),附:中序线索二叉树遍历步骤 (算法6.5):,1)设置一个搜索指针p;,2)先寻找中序遍历之首结点(即最左下角结
30、点),方法是:当LTag=0时(表示有左孩子),p=p-lchild; 直到LTag=1(无左孩子,已到最左下角);首先访问p-data;,3)接着进入该结点的右子树,检查RTag 和p-rchild ;,4) 若该结点的RTag=1(表示有后继线索),则p=p-rchild ;访问p-data ;并重复4) ,直到后继结点的RTag=0;,有后继找后继,无后继找右子树的最左子孙,有后继找后继,算法流程:,先找最左子孙,找到最左子孙,无后继找右子树的最左子孙,6.4 树和森林,6.4.1 树和森林与二叉树的转换 6.4.2 树和森林的存储方式 6.4.3 树和森林的遍历,58,方法:加线抹线旋
31、转,兄弟相连,长兄为父,孩子靠左,6.4.1 树和森林与二叉树的转换,回顾1:树如何转为二叉树?,左孩子右兄弟表示法,59,回顾2:二叉树怎样还原为树?,要点:逆操作,把所有右孩子变为兄弟!,60,法一: 各森林先各自转为二叉树; 依次连到前一个二叉树的右子树上。,讨论1:森林如何转为二叉树?,法二:森林直接变兄弟,再转为二叉树,(参见教材P138图6.17,两种方法都有转换示意图),法一和法二得到的二叉树是完全相同的、惟一的。,61,森林转二叉树举例: (用法二,森林直接变兄弟,再转为二叉树),兄弟相连 长兄为父 头树为根 孩子靠左,A,62,讨论2:二叉树如何还原为森林?,要点:把最右边的
32、子树变为森林,其余右子树变为兄弟,63,6.4.2 树和森林的存储方式,树有三种常用存储方式: 双亲表示法 孩子表示法 孩子兄弟表示法,指向左孩子,指向右兄弟,问:树二叉树的“连线抹线旋转” 如何由计算机自动实现? 答:用“左孩子右兄弟”表示法来存储即可。,存储的过程就是树转换为二叉树的过程!,64,例如:,65,66,因课时有限, “树和森林的遍历”请自学,6.4.3 树和森林的遍历,树的遍历,例如:,先根序列:,后根序列:,a b c d e,b d c e a,深度优先遍历(先根、后根),广度优先遍历(层次),先根遍历 访问根结点; 依次先根遍历根结点的每棵子树。,后根遍历 依次后根遍历
33、根结点的每棵子树; 访问根结点。,树没有中序遍历(因子树不分左右),67,讨论:树若采用“先转换,后遍历”方式,结果是否一样?,d e c b a,a b c d e,b d c e a,1. 树的先根遍历与二叉树的先序遍历相同; 2. 树的后根遍历相当于二叉树的中序遍历; 3. 树没有中序遍历,因为子树无左右之分。,结论:,树的先根序列:a b c d e 树的后根序列:b d c e a,68,先序遍历 若森林为空,返回; 访问森林中第一棵树的根结点; 先根遍历第一棵树的根结点的子树森林; 先根遍历除去第一棵树之后剩余的树构成的森林。,森林的遍历,为何有中序?,深度优先遍历(先序、中序),
34、广度优先遍历(层次),中序遍历 若森林为空,返回; 中根遍历森林中第一棵树的根结点的子树森林; 访问第一棵树的根结点; 中根遍历除去第一棵树之后剩余的树构成的森林。,69,讨论:若采用“先转换,后遍历”方式,结果是否相同?,例如:,先序序列:,中序序列:,A B C D E F G H I J,B C D A F E H J I G,先序序列:,中序序列:,A B C D E F G H I J,B C D A F E H J I G,结论:森林的先序和中序遍历在两种方式下的结果相同。,70,6.5 二叉树的典型应用,平衡树 排序树 字典树 判定树 带权树 最优树,由字符串构成的二叉排序树 特
35、点:分支查找树(例如12个球如何只称3次便分出轻重) 特点:路径带权值(例如长度) 是带权路径长度最短的树,又称 Huffman树,用途之一是通信中的压缩编码。,特点:所有结点左右子树深度差1,特点:所有结点“左小右大”,71,Huffman树概念的引入 最佳判定树,什么是带权树?,即叶子带有权值。例如:,最优二叉树(哈夫曼树),如果是带权路径长度最短的树,73,6.6 Huffman树及其应用,一、Huffman树二、Huffman编码,最优二叉树,Huffman树,Huffman编码,带权路径长度最短的树,不等长编码,是通信中最经典的压缩编码,74,树的带权路径长度如何计算?,经典之例:,
36、WPL=,WPL=,WPL=,Huffman树是WPL 最小的树,树中所有叶子结点的带权路径长度之和,36,46,35,75,一、 Huffman树(最优二叉树),路 径: 路径长度: 树的路径长度: 带权路径长度: 树的带权路径长度: Huffman树:,由一结点到另一结点间的分支所构成。,路径上的分支数目。,从树根到每一结点的路径长度之和。,结点到根的路径长度与结点上权的乘积(WPL),若干术语:,即树中所有叶子结点的带权路径长度之和,带权路径长度最小的树。,例如:ae的路径长度,树长度,2,10,Huffman常译为赫夫曼、霍夫曼、哈夫曼、胡夫曼等,Weighted Path Lengt
37、h,76,1. 构造Huffman树的基本思想:,例:设有4个字符d,i,a,n,出现的频度分别为7,5,2,4,怎样编码才能使它们组成的报文在网络中传得最快?,法1:等长编码(如二进制编码) 令d=00,i=01,a=10,n=11,则: WPL12bit(7524)36法2:不等长编码(如Huffman编码) 令d=0;i=10,a=110,n=111,则:,明确:要实现Huffman编码,就要先构造Huffman树,讨论:Huffman树有什么用?,权值大的结点用短路径,权值小的结点用长路径。,WPL最小的树,频度高的信息用短码,低的用长码,传输效率肯定高!,WPL2=1bit72bit
38、5+3bit(2+4)=35,最小冗余编码、信息高效传输,77,step1:对权值进行合并、删除与替换 在权值集合7,5,2,4中,总是合并当前值最小的两个权,先介绍Huffman树的具体构造步骤:,a. 初始,方框表示外结点(叶子,字符),圆框表示内结点(合并后的权值),b. 合并2 4,c. 合并5 6,d. 合并7 11,谁左谁右?若不规定就会不惟一,78,step2:按左“0”右“1” 对Huffman树的所有分支编号,Huffman编码结果:d=0, i=10, a=110, n=111 WPL=1bit72bit5+3bit(2+4)=35(小于等长码的WPL=36),特征:每一码
39、不会是另一码的前缀,译码时可惟一复原,Huffman编码也称为前缀码,将 Huffman树 与 Huffman编码 挂钩,79,2. 构造Huffman树的步骤(即Huffman算法):,(1) 由给定的 n 个权值 w1, w2, , wn 构成n棵二叉树的集合F = T1, T2, , Tn (即森林) ,其中每棵二叉树 Ti 中只有一个带权为 wi 的根结点,其左右子树均空。 (2) 在F 中选取两棵根结点权值最小的树 做为左右子树构造一棵新的二叉树,且让新二叉树根结点的权值等于其左右子树的根结点权值之和。 (3) 在F 中删去这两棵树,同时将新得到的二叉树加入 F中。 (4) 重复(2
40、) 和(3) , 直到 F 只含一棵树为止。这棵树便是Huffman树。,怎样证明它就是WPL最小的最优二叉树?参考信源编码,总之,每次合并当前值最小的两个权。 (此树特征:没有度为1的结点),80,思考:若权值相同,先合并哪个?,思考:Huffman编码举例,解:先将概率放大100倍,以方便构造哈夫曼树。 放大后的权值集合 w= 7, 19, 2, 6, 32, 3, 21, 10 , 按哈夫曼树构造规则(合并、删除、替换),可得到哈夫曼树。,例1【严题集6.26】:假设用于通信的电文仅由8个字母 a, b, c, d, e, f, g, h 构成,它们在电文中出现的概率分别为 0.07,
41、0.19, 0.02, 0.06, 0.32, 0.03, 0.21, 0.10 ,试为这8个字母设计哈夫曼编码。如果用07的二进制编码方案又如何? 【类同P148例2】,81,例 w=2, 32, 7, 6, 19, 21, 3, 10,另一种表示 :,83,重点:如何编程实现Huffman编码?,建议1:Huffman树中结点的结构可设计成4或5分量形式:,将整个Huffman树的结点存储在一个数组HT1nm中;(Huffman树内外结点总数m=2n-1)各叶子结点的编码存储在另一“复合”数组HC1n中。(n个权值/叶子将对应n个不同长度的码串),建议2: Huffman树的存储结构大胆采
42、用顺序存储结构:,即:先构造Huffman树HT再求出n个权值/字符的Huffman编码HC,参见教材P147,84,m=n0+n2=n+(n-1)=2n-1,w= 7, 19, 2, 6, 32, 3, 21, 10 在机内存储形式为:,b,c,a,e,g,f,h,请注意:哈夫曼树样式不惟一,编程时应该有约定,“先来先挂接”,5,11,17,28,40,60,100,双亲,左右孩子,85,选择parent为0且weight最小的两个结点,根据哈夫曼树得到对应编码:,Huffman码的WPL2(0.19+0.32+0.21) + 4(0.07+0.06+0.10) +5(0.02+0.03)
43、=1.44+0.92+0.25=2.61,3(0.19+0.32+0.21+0.07+0.06+0.10+0.02+0.03)=3,二进制等长码的WPL,按左0右1标注,86,typedef struct unsigned int weight;/权值分量(可放大取整) unsigned int parent,lchild,rchild; /双亲和孩子分量 HTNode,*HuffmanTree;/用动态数组存储Huffman树,Huffman树的存储表示:,双亲,*HuffmanTree或 HT向量样式:,HT3.parent=9,87,注: 常先用一个int型数组来采集权值W,并用*w指针
44、拷贝给HT,Huffman树HT的机内实现:,先构造Huffman树HT, 才能求出N个字符的Huffman编码HC。,Void HuffmanCoding(HuffmanTree &HT, HuffmanCode &HC, int *w, int n),if (n=1)return; m=2*n-1; /n 个叶子的HuffmanTree共有2n-1个结点; HT=(HuffmanTree)malloc(m+1)*sizeof(HTNode); /0单元未用,for(p=HT+1,i=1; i=n; +i,+p,+w)*p=*w,0,0,0; /给前n个单元初始化(教材有误) for(;i=
45、m; +i,+p)*p =0,0,0,0; /从叶子之后的存储单元清零 for(i=n+1;i=m; +i) /建Huffman树(从n个叶子后开始存内结点) Select(HT, i-1, s1, s2); /在HT1i-1选择parent为0且weight最小的两个结点,其序号分别为s1和s2(教材未列此函数源码) HTs1.parent=i; HTs2.parent=i; /给双亲分量赋值 HTi.lchild=s1; HTi.rchild=s2; /给合并后的内结点赋孩子值 HTi.weight=HTs1.weight+ HTs2.weight; ,*w存放n个字符的权值 INT*W是
46、表明W是一个指向INT数组的指针,*W即取一个INT,W+后*W取下一个元素W这里和数组名(即指向该INT数组的指针)等价。,88,typedef struct unsigned int weight;/权值分量(可放大取整) unsigned int parent,lchild,rchild; /双亲和孩子分量 HTNode,*HuffmanTree;/用动态数组存储Huffman树 typedef char*HuffmanCode; /动态数组存储Huffman编码表,Huffman树和Huffman树编码的机内实现:,HC向量样式:,HCi=(char*)malloc(n-start)*
47、sizeof(char); strcpy(HCi, ,指针型指针,89,逐个字符求Huffman编码:for(i=1; i=n; +i) start=n-1; /编码结束符位置for(c=i, f=HTi.parent; f!=0; c=f, f=HTf.parent) if(HTf.lchild=c) cd-start=“0”;else cd-start=“1”; /从叶子到根逆向求编码 ,c(=i=1),f(=11),双亲=0则到根,停止编码,SIZEOF()可以对变量或变量类型运算,SIZEOF(CHAR*)是一个CHAR型指针的空间大小,如定义CHAR*P,那么SIZEOF(P)就是结
48、果,和SIZEOF(CHAR*)等价。,(续前) 求出n个字符的Huffman编码HC,HC=(HuffmanCode)malloc(n+1)*sizeof(char*); /分配n个字符编码的头指针向量(一维数组),cd=(char*) malloc(n*sizeof(char); /分配求编码的临时最长空间 cdn-1=“0”; /编码结束符(从cd0cdn-1为合法空间) for(i=1;i=n;+i) /逐个字符求Huffman编码 start=n-1; /编码结束符位置for(c=i,f=HTi.parent; f!=0; c=f, f=HTf.parent) /从叶子到根逆向求编码if(HTf.lchild=c) cd-start=“0”;else cd-start=“1”;HCi=(char*)malloc(n-start)*sizeof(char);/为第i个字符编码分配空间,并以数组形式存放各码串指针strcpy(HCi, /释放临时空间/HuffmanCoding,