1、二叉树及其应用,雅礼 朱全民,二叉树,二叉树是一种特殊的树型结构,它的特点是每个节点至多只有两个子节点。二叉树每个节点的子树有左右之分,其次序不能任意颠倒。二叉树也有特殊形式,例如满二叉树、完全二叉树等。例如右图就是一棵二叉树,并且是一棵完全二叉树。,二叉树的存储结构,常用的存储结构 type bitree=node node=record data :datatype; lchild,rchild:bitree; end;,二叉树的遍历,遍历( 先序遍历, 中序遍历, 后序遍历)Proc preorder(bt:bitree); if btNil then visit(bt) preorde
2、r(bt.lchild); preorder(bt.rchild); endP,二叉树的性质,在二叉树的第i层上最多有2i-1个结点深度为K的二叉树最多有2k-1个结点在二叉树中,叶子结点的总数总比为度数为2的结点多1有n个结点的完全二叉树的结点按层序编号,则对任意一结点i,有(1)如果i=1,则结点i是二查树的根,无双亲;如果i1,则双亲是i/2(2)如果2in,则结点i无左孩子,否则左孩子为2i(3)如果2i+1n,则结点i无右孩子,否则右孩子为2i+1,树、森林转化为二叉树,用“孩子兄弟表示法”可以将任意一棵树转化为二叉树的形式 森林转化为二叉树 如果F=T1, T2, ,Tm是森林,则
3、可按如下规则转化为一棵二叉树。 1)若F为空,即m=0,则B为空树 2)若F非空,即m0,则B的根root即为森林中第一棵树的根root(T1),B的左子树为从T1中子树森林F1=T11, T12, ,T1i转换而成的二叉树;其右子树Rb 是从森林F=T2, ,Tm中转换出来的二叉树,树的儿子兄弟表示法,在一棵树中,拥有同一个父结点的结点互称为兄弟。我们不妨假设树中每个结点的子结点是有序的(就像二叉树一样),则我们可以将一棵树这样转化成二叉树:二叉树中每个结点对应原树的每个结点对于二叉树中的某个结点它的左子结点对应原树中该结点的第一个子结点;它的右子结点对应原树中该结点的下一个兄弟。,转化后的
4、树,树的儿子兄弟表示法,这样我们可以类似于二叉树的链式结构写出树的儿子兄弟表示法的存储结构: TYPE tree = node; node = record data : datatype; parent, child, brother : tree; / 分别记录父亲、第一个儿子、下一个兄弟 end;,树的儿子兄弟表示法,给定m个实数w1, w2, wm,(m=2) ,要求一个具有m个外部节点的扩充二叉树,每个外部ki节点有一个wi与之对应,作为它的权,使得带权外部路径长度 最小,其中li是从根到外部节点的路径长度。,最优二叉树(哈夫曼树),算法,1.构造m个只有1个节点的树2.找两个最小的
5、权3.以这两个节点为左右儿子构造一个二叉树,并将该数的根节点权之为左右儿子权值之和4.继续第二步,直到剩下一棵树为止,讨论,最优k叉树就是指在一个节点最多可以有k个叶子节点的时候,假设有n(n=k)个权值w1,w2,.wn,试构造出一棵有个叶子节点的k叉树。每个叶子节点有一个不同的权值i。其中树的带权路径长度最小的那棵树叫做最优k叉树。怎么构造?,分析,最优k叉树必须具备的性质:每个节点如果不是叶子节点,那么一定有k个儿子节点。权值大的节点不能在比权值小的节点下方。就是权值大的节点到树根的长度要小于等于权值小的节点到树根的长度。,算法,根据给定的n个权值wl,w2,wn构成n棵k叉树的森林F=
6、T1,T2,Tn,其中每棵k叉树Ti中都只有一个权值为wi的根结点,其左右子树均空。在森林F中选出k棵根结点权值最小的树(当这样的树不止k棵树时,可以从中任选k棵),将这k棵树合并成一棵新树,为了保证新树仍是k叉树,需要增加一个新结点作为新树的根,并将所选的k棵树的根分别作为新根的左右孩子,将这k个孩子的权值之和作为新树根的权值。对新的森林F重复(2),直到森林F中只剩下一棵树为止。这棵树便是最优k叉树。,反例,假设k=3,当n=5时,这样做是对的。但是当n=4时,用刚才的方法得到的“最优3叉树”,但是,明显右图的那颗树会比左图的那颗树优。,分析原因,错误的原因:主要是左边的这棵树它并没有排满
7、。可以把第3层的一个节点拉到第2层去,而这样做肯定会让WPL更小。那么肯定要让第一次合并的时候,少合并几个点,后面的操作就和上面所说得算法一样。并且让最后一次合并能合并n棵树。从而让上面排满。那么第一次要合并多少个点呢?首先每次合并会让树的总数减少k-1棵,而最后还有n棵。那么完成了第一次合并后,剩下的树的个数正好模k-1后等于1。那么第一次合并的树的个数就应该是(n-2)mod(k-1)+2。 而当k=2时,k-1=1,此时第一次合并的个数总是为2。,改进算法,根据给定的n个权值wl,w2,wn构成n棵k叉树的森林F=T1,T2,Tn。其中每棵k叉树Ti中都只有一个权值为wi的根结点,其左右
8、子树均空。进行第一次合并操作选出最小的(n-2)mod(k-1)+2颗根节点权值最小的树进行合并成一棵新树,该树根的权值为选出来的树的权值之和。在森林F中选出k棵根结点权值最小的树(当这样的树不止k棵树时,可以从中任选出k棵),将这k棵树合并成一棵新树,为了保证新树仍是k叉树,需要增加一个新结点作为新树的根,并将所选的k棵树的根分别作为新根的孩子,将这k个孩子的权值之和作为新树根的权值。对新的森林F重复(2),直到森林F中只剩下一棵树为止。这棵树便是最优k叉树。,二叉堆,定义堆是一棵完全二叉树,对于每一个非叶子结点,它的权值都不大于(或不小于)左右孩子的权值,我们称这样的堆为小根堆(或大根堆)
9、。描述如下:n个元素的序列k1,k2,kn,当且仅当满足 ki=k2i 并且 ki = k2i+1 二叉堆肯定是一颗完全二叉树,在堆中插入元素x,首先将元素x放到堆中的最后一个位置(即最底层最右边的位置),然后不断地把x往上调整,直到x调不动为止(即大于它现在的父亲,或者x处于根结点)。,定义一个堆:Var st:array1.maxn of longint; /存储堆 n:longint; /堆中元素个数,插入 (实际上是不断向上调整的过程),PROC heapup (k:longint); 把第k个结点上调begin while k1 do begin i:=k div 2; i是k的父亲
10、 if stistk then begin swap(i,k); k:=i; 交换结点i和k end else exit; end;end;,在堆中删除任意一个元素,这里说指的删除任意一个元素,是指在当前堆中位置为w的元素。过程如下:首先把位置w的元素和最后一个位置的元素交换,然后删去最后一个位置,这样w上的元素就被删除了。接着把位置w上的新元素不断下调,直到满足堆的性质。,删除 (实际上是不断向下调整的过程),PROC heapdown(k:longint);把第k个结点往下调begin while k+k=n do begin i:=min 2k,2k+1; 如果2k+1不存在直接返回k+
11、k否则返回2个中间的值较小的元素 if stistk then begin swap(i,k); k:=i; end else exit end;end;,堆的构造就是不断插入到堆的过程,堆的插入.删除,PROC add(x:longint); 添加一个值为x的元素begin inc(n); stn:=x; heapup(n)end;PROC del(x:longint); 添加一个值为x的元素begin stx:=stn; dec(n); heapdown(x)end;,合并果子,在一个果园里,多多已经将所有的果子打了下来,而且按果子的不同种类分成了不同的堆。多多决定把所有的果子合成一堆。每
12、一次合并,多多可以把两堆果子合并到一起,消耗的体力等于两堆果子的重量之和。可以看出,所有的果子经过n-1次合并之后,就只剩下一堆了。多多在合并果子时总共消耗的体力等于每次合并所消耗体力之和。因为还要花大力气把这些果子搬回家,所以多多在合并果子时要尽可能地节省体力。假定每个果子重量都为1,并且已知果子的种类数和每种果子的数目,你的任务是设计出合并的次序方案,使多多耗费的体力最少,并输出这个最小的体力耗费值。例如有3种果子,数目依次为1,2,9。可以先将1、2堆合并,新堆数目为3,耗费体力为3。接着,将新堆与原先的第三堆合并,又得到新的堆,数目为12,耗费体力为12。所以多多总共耗费体力=3+12
13、=15。可以证明15为最小的体力耗费值。,【输入文件】输入文件fruit.in包括两行, 第一行是一个整数n(1=n=10000),表示果子的种类数。第二行包含n个整数,用空格分隔,第i个ai(1=ai=20000)是第i个果子的数目。【输出文件】输出文件fruit.out包括一行,这一行只包含一个整数,也就是最小的体力耗费值。输入数据保证这个值小于231。【样例输入】31 2 9【样例输出】15【数据规模】对于30%的数据,保证有n=1000;对于50%的数据,保证有n=5000;对于全部的数据,保证有n=10000。,合并果子,把合成堆后的每堆的果子仍然看成相对独立的,那么定义timesi
14、等于第i堆果子被合并的次数,ai为第i堆数字权值。则 Totalcost= ,目标求得是 minTotalcost。建立一棵二叉树,每堆果子分别为该树的叶节点,一种二叉树形态对应一种合并方案(2堆果子合并则有共同父结点),所以该方案的Totalcost =depthi*vi ,i是叶节点。解法是每次取出最小的两个节点,并从节点集合中删除,然后合并这两点后再加入节点集合;重复,直到只剩一个节点;,由于每次要取出最小的两个节点。(一般做法是每更新一次集合,重新排序,时间是O(n2))。由于nTi而且jCi+1那么根据定理1,将K,i+1替换后肯定更优。于是得到了一个算法的基本流程:1.将任务按照T
15、i排序。2.从小到大枚举i。维护当前最优方案的集合U。每次将当前的任务I加入U后。如果不满足条件了,那么删去U中耗时最长的任务。3.输出最优方案即可。因此我们需要使用一种数据结构,它能快速删除耗时最长的任务,同时快速的插入一个新元素。显然,使用大根堆即能满足题目要求。,加分二叉树,设一个n个节点的二叉树tree的中序遍历为(l,2,3,n),其中数字1,2,3,n为节点编号。每个节点都有一个分数(均为正整数),记第j个节点的分数为di,tree及它的每个子树都有一个加分,任一棵子树subtree(也包含tree本身)的加分计算方法如下: subtree的左子树的加分 subtree的右子树的加
16、分subtree的根的分数若某个子树为主,规定其加分为1,叶子的加分就是叶节点本身的分数。不考虑它的空。子树。试求一棵符合中序遍历为(1,2,3,n)且加分最高的二叉树tree。要求输出; (1)tree的最高加分 (2)tree的前序遍历,加分二叉树,【输入格式】 第1行:一个整数n(n30),为节点个数。 第2行:n个用空格隔开的整数,为每个节点的分数(分数100)。【输出格式】 第1行:一个整数,为最高加分(结果不会超过4,000,000,000)。 第2行:n个用空格隔开的整数,为该树的前序遍历。【输入样例】 5 5 7 1 2 10【输出样例】 145 3 1 2 4 5,分析,如果
17、整棵树的权值最大,必然有左子树的权值最大,右子树的权值也最大,符合最优性原理。,可行算法,我们试着写出状态转移方程:fi,j=maxi=t=j | dt+fi,t-1ft+1,j 初始: f(i,i)=di 目标:f(1,n)这样,我们可以写出一个动态规划的算法,可以按照状态fi,j中i与j的距离来划分阶段(当然也有其它的划分阶段的办法),先处理掉边界情况(空树和只含有一个节点的树),然后就可以按照阶段自底向上进行动态规划了,最后再递归地输出,注意要保存每次决策。时间复杂度 O(n3),河流,一颗有N+1个结点的树,树中的每个结点可能会生产出一些产品。这些产品要么就地加工(要有加工厂才行),要
18、么运送到它的父亲结点那儿去。现在在整棵树的根结点处已经有了一个产品加工厂,而且所有的产品最终必须在某个加工厂加工才行。由于运费昂贵,不可能将所有的产品都运送到根节点处加工。现在决定在树中的某些结点新增总共K个加工厂,现在要你选择这K个加工厂的厂址。 假设结点i会生产出Wi吨产品,它的父结点是Pi。而它到它的父结点的路径的长度是Ui。运费的计算是每运送1顿的货物,每单位长度收取1的费用。根节点的编号为0。,河流,例如右图,0节点是根节点,如果要新增两个工厂,最佳方案是建在2、3两个节点上,这样总的费用为:1*1(1号)+1*3(4号)=4由于题目中给出的树是多叉树,不便于进行动态规划。我们先利用
19、儿子兄弟表示法,将多叉树转化为二叉树。,进行了相关的转化之后,设f(i,j,k)表示在新树中,以i结点为根的子树中,分配k个加工厂。并且离i结点最近的加工厂在j结点的情况下。i结点及其子树内的所有产品,加工所需要的费用。转移方程很容易就可以写出来:总时间复杂度为O(N2K2)。,河流,二叉排序树(Binary Sort Tree),二叉排序树又称为二叉查找(搜索)树(BST)它或者是一颗空树,或者是具有如下性质的二叉树:1)若它的左子树不空,则左子树上所有结点的值均小于它的根结点的值2) 若它的右子树不空,则右子树上所有结点的值均大于它的根结点的值3)它左右子树分别为二叉排序树。,BST的特点
20、,(1) 二叉排序树中任一结点x,其左(右)子树中任一结点y(若存在)的关键字必小(大)于x的关键字。(2) 二叉排序树中,各结点关键字是惟一的。实际应用中,不能保证被查找的数据集中各元素的关键字互不相同,所以可将二叉排序树定义中BST性质(1)里的小于改为大于等于,或将BST性质(2)里的大于改为小于等于,甚至可同时修改这两个性质。(3) 按中序遍历该树所得到的中序序列是一个递增有序序列。,实例,BST的查找,FUNC bstsrch(t:bitreptr;K:keytype):bitree if (t=nil) or (t.key=K) then return(t) else if t.k
21、eyK then return(bstsrch(t.lchild,k) else return(bstsrch(t.rchild,k)endF,BST的插入,在二叉排序树中插入新结点,要保证插入后仍满足BST性质。其插入过程是:(a)若二叉排序树T为空,则为待插入的关键字key申请一个新结点,并令其为根;(b)若二叉排序树T不为空,则将key和根的关键字比较:(i)二者相等,则说明树中已有此关键字key,无须插入。 (ii)keyTkey,则将它插入根的右子树中。子树中的插入过程与上述的树中插入过程相同。如此进行下去,直到将key作为一个新的叶结点的关键字插入到二叉排序树中,或者直到发现树中已
22、有此关键字为止。,BST插入的递归算法,PROC ins_bstree(var bst:bitree;k:keytp);采用链式存储结构 begin new(s);s.key:=k;s.lchild:=nil;s.rchild:=nil; if bst=nil then bst:=s; else if Kfkey then f.lchild:=s; else f.rchild:=send;,BST的生成为进行不断插入的过程!但在生成BST的时候,可能会由于根结点选择不好,使得树很斜,查找的效率降低,可以使用随机产生根结点的方法,使得BST较平衡,下图就是两棵关键字相同的BST树.,删除,分三种
23、情况讨论1)删除叶子节点不破坏树的结构,修改其双亲结点: f.lchild:=NIL2)若只有左孩子Pl或者只有右孩子Pr,则只要令Pl或Pr直接为f的左孩子即可:f.lchild:=P.lchild;或者f.lchild:=P.rchild;3)左右孩子都有,设中序遍历的序列为ClC.QlQSlSPPrF,令P的左孩子为f的右孩子,而P的右孩子为S的右孩子 q:=p;s:=p.lchild; while srchildnil do q:=s;s:=s.rchild p.data:=s.data; if qp then q.rchild :=s.lchild else q.lchild :=s
24、.lchild dispose(s),Splay 树,Splay树是二叉查找树的改进。对Splay树的操作的均摊复杂度是O(log2n)。Splay树与二叉查找树一样,也具有有序性。 即Splay树中的每一个节点x都满足:该节点左子树中的每一个元素都小于x,而其右子树中的每一个元素都大于x。Splay树的核心思想就是通过Splay操作进行自我调整,从而获得平摊较低的时间复杂度。,Splay操作,Splay操作是在保持Splay树有序性的前提下,通过一系列旋转操作将树中的元素x调整至树的根部的操作(Zig:右旋,Zag:左旋)。在旋转的过程中,要分三种情况分别处理: 1)Zig 或 Zag 2)
25、Zig-Zig 或 Zag-Zag 3)Zig-Zag 或 Zag-Zig,Splay操作 情况1,Zig或Zag操作:节点x的父节点y是根节点。,Splay操作 情况2,Zig-Zig或Zag-Zag操作: 节点x的父节点y不是根节点,且x与y同时是各自父节点的左孩子或者同时是各自父节点的右孩子。,Spaly操作 情况3,Zig-Zag或Zag-Zig操作: 节点x的父节点y不是根节点,x与y中一个是其父节点的左孩子而另一个是其父节点的右孩子。,Splay操作举例,Splay(1,S),Spaly树基本操作,查找:与二叉排序树查找类似,只是查找结束后要将找到的元素通过Splay操作旋转到根。
26、插入:用查找过程找到要插入的位置,进行插入。然后将新元素旋转到根。删除:首先在树中找到要删除的元素,将他转到根节点并删去,这样原来的树就分裂成了两棵树,然后将左子树中拥有最大关键字的那一个元素转到根,由于它是左子树中的最大元素,所以他不存在有儿子,这样只要把原来的右子树作为他的右子树,就重新合并成了一棵树。可见在Splay树的基本操作中,处处要用到Splay旋转操作!,Pet(湖南省省队选拔赛),宠物收养场提供两种服务:收养被离弃的宠物与让新的主人领养宠物。每个宠物有不相同的特点值。领养人所希望的特点值也不相同。如果领养人/遗弃宠物过多,则当前来的宠物/领养人选择离其特点值最近的(如果有两个特
27、点值与其同样接近,则选择较小的)领养人/宠物,被领养/领养。并且纪录两个特点值的差值。输入N条请求(X,Y),X=0表示宠物;X=1表示领养人,Y为特征值。任务是计算所有差值的和。(N=80000,等待的宠物/领养者数M=10000),Pet,我们先用最普通的数组记录过多的宠物/领养人。查找:需要检索整个数组,复杂度为O(M)删除:删除指定元素之后,需要成批移动主轴元素,时间复杂度也为O(M)这样最坏情况下时间复杂度为O(NM), 是不可取的。,Pet,对宠物/领养人过多的情况下,我们建立一颗排序二叉树,并记录其属性Sign(宠物/领养人)。对于命令(X,Y),如果树为空或者X=Sign,则将
28、其插入,并令Sign=x;否则在树中查找符合要求的结点,记录特征值之差,并将其删除。(注意无论树的属性是0或1,相对进行的操作是相同的)普通的排序二叉树在最坏情况下时间复杂度也是O(NM) 。我们可以应用较高效的排序二叉树,例如AVL树(平衡二叉树)或者Splay树。,Pet,AVL树引入平衡因子的概念,使得整棵排序二叉树严格平衡,时间复杂度严格为O(nlogm)。但是其编程复杂度很高。Splay树通过Splay旋转操作,使得分摊时间复杂度为O(nlogm),虽然常系数较AVL树相比大。但是操作简便,编程复杂度较低。在考场上我们要综合考虑各方面的因素,合理的选择数据结构。,数列操作,假设有一列
29、数Ai(1in),支持如下两种操作:将Ak的值加D。(k, D是输入的数)输出As+As+1+At。(s, t都是输入的数,ST) 输入:第一行一个整数n, 第二行为n个整数,表示Ai的初始值。 第三行为一个整数m,表示操作数 下接m行,每行描述一个操作,有如下两种情况: ADD k d (表示将Ak加d,1=k1 : a, (a+b) div 2为 T的左儿子; (a+b) div 2,b为T 的右儿子。 若L=1 : T为叶子节点。,表示区间1, 10的线段树样例:,线段树的建立,我们知道,对于长度为n的线段建立的线段树,至多只有nlogn个节点,故建立线段树的复杂度是O(nlogn),P
30、rocedure MakeTree(a,b)Var Now:LongintBegin tot tot + 1 ; Now tot TreeNow.a a TreeNow.b b If a +1 b then TreeNow.Left tot + 1 MakeTree(a, ) TreeNow.Right tot + 1 MakeTree( , b)End,回到原问题,我们用线段树来维护序列。给线段树的每个节点增加一个域Treei.S,表示该区间内所有值的和。对于ADD k d操作,只需要从根节点开始遍历线段树中每个包含了k的区间节点,然后修改S域。由于这样的区间至多只有logn个,所以一次AD
31、D操作的复杂度是O(logn),SUM操作,对于待计算的区间s,t:Function getsum(v):integer; if (s=Treev.a) and (Treev.b=t) then getsum:=Treev.S else begin tot:=0; if s,t和Treev.Left表示的区间相交 then tot:=tot+getsum(Treev.Left); if s,t和Treev.Right表示的区间相交 then tot:=tot+getsum(Treev.Right); getsum:=tot end; 我们不难发现这个过程中所遍历到的区间数(节点数)和线段树的深
32、度同阶,因此时间复杂度是O(logn),引例 问题的解决,综上,M次操作的时间复杂度为O(Mlogn)通过引入线段树的数据结构,虽然ADD操作的复杂度提高到了O(logn)。但SUM操作变得更快(O(logn)。从而也使得算法在大数据处理上更加高效。,Picture(IOI98),墙上贴了一些矩形的张贴画和照片。他们的边都是垂直或者水平的。每个矩形可以部分后者全部被其他的矩形覆盖。把这些矩形看作一个整体,他们的边界长度就是他们的轮廓长度。所有顶点坐标都是整数。 任务:写一个程序计算轮廓长度。下面的图1是一个7个矩形的例子:,图1:七个矩形这些矩形的轮廓如图2所示,图2:图1中7个矩形的轮廓,预
33、处理:如右图所示,用2n条横线与2n条纵线将坐标平面重新进行划分。定义新的坐标轴,并记录每一个“元线段”的长度。这样就只剩下了2n*2n个坐标点,便于今后的计算。离散化,将2n条矩形的横边和2n条纵边取出来,分别计算,Picture,Picture,做完预处理之后,如果直接计算,不难想到O(n2)的算法。事实上,利用线段树我们可以设计出一个时间复杂度为O(nlogn)的高效算法。在分析算法之前,我们先来看看线段树上插入和删除线段的操作。,线段树的插入、删除(1),增加一个Treei.Cover域,记录该区间(线段)被覆盖的次数。则在线段树中插入线段c,d的代码段如下:,Procedure In
34、sert(v)Begin If (c then Insert(Treev.Right)End,线段树的插入、删除(2),删除线段c,d的操作,只需要将Treev.Cover Treev.Cover + 1改成 Treev.Cover Treev.Cover 1即可。与引例中计算SUM的过程段类似地分析,不难得到线段树中插入和删除线段的时间复杂度都是O(logn),Picture(IOI98),回到原问题,首先我们考虑纵向的离散区间。,我们从左到右依次扫描每个离散区间。,如上,考察第一个离散区间。蓝色的线段显然要算入最后的“轮廓长度”。我们把蓝色线段插入线段树。,在第二个区间我们加入了另一个矩形
35、的左边界,如右图蓝色线段。把这条线段加入到线段树中。但是用圆形圈起来的部分不应该算到“轮廓长度”里面去。究其原因,因为圆形圈起来的部分和之前已经插入的线段重合了。也就是说每插入一条新线段,只有不和之前已插入线段重合的部分才应该被算到“轮廓长度”里面去。,Picture,接着考察第三个区间,我们面对的是一个矩形的右边界,因此我们要把它对应的绿色线段从树中删除。 右图的蓝色线段中,圆形圈起来的部分不算到轮廓里面去。究其原因,是因为这个部分和除被删除线段之外的线段有交集。,Picture,综合前面的分析,我们得到:每次插入/删除操作之前,线段树中线段覆盖的总长度是X;之后的总长度是Y。那么应该算入轮廓的长度就是|X-Y|。关于如何计算“覆盖的总长度”,与引例中计算区间和类似,这里不再赘述。这样我们就可以通过一遍扫描,计算出所有的纵向轮廓长度。这是只需要把图旋转90度,就可以用同样的方法计算横向轮廓的长度了。,Picture,由于每条矩形的边界线段只被扫描一遍,而且扫描的时候进行的插入或删除操作的时间复杂度是O(logn)所以算法的总时间复杂度是O(nlogn)。,Picture,