1、数据结构知识点概括第一章概论数据就是指能够被计算机 识别、存储和加工处理的信息的载体。数据元素是数据的 基本单位,可以由若干个数据项组成。数据项是具有独立含义的最小 标识单位。数据结构的定义:逻辑结构:从逻辑结构上描述数据,独立于计算机。线性结构:一对一关系。线性结构:多对多关系。 存储结构:是逻辑结构用计算机语言的实现。顺序存储结构:如数组。 链式存储结构:如链表。 索引存储结构:稠密索引:每个结点都有索引项。 稀疏索引:每组结点都有索引项。 散列存储结构:如散列表。数据运算。对数据的操作。定义在逻辑结构上,每种逻辑结构都有一个运算集合。常用的有:检索、插入、删除、更新、排序。数据类型:是一
2、个值的集合以及在这些值上定义的一组操作的总称。结构类型:由用户借助于描述机制定义,是导出类型。抽象数据类型 ADT : 是抽象数据的组织和与之的操作。相当于在概念层上描述问 题。优点是将数据和操作封装在一起实现了信息隐藏。程序设计的实质是对实际问题选择一种好的数据结构,设计一个好的算法。算法取决于数据结构。算法是一个良定义的计算过程,以一个或多个值输入,并以一个或多个值输出。评价算法的好坏的因素:算法是正确的;执行算法的时间;执行算法的存储空间(主要是辅助存储空间);算法易于理解、编码、调试。时间复杂度:是某个算法的时间耗费,它是该算法所求解问题规模n的函数。渐近时间复杂度:是指当问题规模趋向
3、无穷大时,该算法时间复杂度的数量级。评价一个算法的时间性能时,主要标准就是算法的渐近时间复杂度。算法中语句的频度不仅与问题规模有关,还与输入实例中各元素的取值相关。时间复杂度按数量级递增排列依次为:常数阶0(1)、对数阶O (log2n)、线性阶0 (n)、线性对数阶 0 (nlog2n)、平方阶0 (nA2)立方阶0 5人3)、k次方阶0 (n”)、指数阶 0 (2An)o空间复杂度:是某个算法的空间耗费,它是该算法所求解问题规模n的函数。算法的时间复杂度和空间复杂度合称算法复杂度。第二章线性表线性表是由n)0个数据元素组成的有限序列。n=0是空表;非空表,只能有一个开始结点,有且只能有一个
4、终端结点。线性表上定义的基本运算: 构造空表:Initlist (L) 求表长:Listlength (L) 取结点:GetNode (L, i) 查找:LocateNode (L, x) 插入:InsertList (L, x, i) 删除:Delete ( L , i)顺序表是按线性表的逻辑结构次序依次存放在一组地址连续的存储单元中。在存储 单元中的各元素的物理位置和逻辑结构中各结点相邻关系是一致的。地址计算:LOCa (i) =LOCa (1) + (i-1 ) *d ;(首地址为1)在顺序表中实现的基本运算:插入:平均移动结点次数为n/2;平均时间复杂度均为0 (n)。删除:平均移动结
5、点次数为(n-1) /2;平均时间复杂度均为 0 (n)。线性表的链式存储结构中结点的逻辑次序和物理次序不一定相同,为了能正确表示结点间的逻辑关系,在存储每个结点值的同时,还存储了其后继结点的地址信息(即指针或链)。这两部分信息组成链表中的结点结构。一个单链表由头指针的名字来命名。单链表运算:建立单链表头插法:s-next=head; head=s;生成的顺序与输入顺序相反。平均时 间复杂度均为0(n)。尾插法: head=rear=null; if (head=null) head=s; else r-next=s; r=s; 平均时间复 杂度均为0 (n) 加头结点的算法:对开始结点的操作
6、无需特殊处理,统一了空表和非空表。 查找按序号:与查找位置有关,平均时间复杂度均为0 (n)o 按值:与输入实例有关,平均时间复杂度均为 0 (n)o 插入运算:p=GetNode (L, i-1) ; s-next=p-next ; p-next=s;平均时间复杂度 均为O (n)删除运算:p=GetNode (L, i-1); r=p-next ; p-next=r-next ; free (r);平均时间复 杂度均为O (n)单循环链表是一种首尾相接的单链表,终端结点的指针域指向开始结点或头结点。链表终止条件是以指针等于头指针或尾指针。采用单循环链表在实用中多采用尾指针表示单循环链表。优
7、点是查找头指针和尾指针的时(都是O (1),不用遍历整个链表。双链表就是双向链表,就是在单链表的每个结点里再增加一个指向其直接前趋的指 针域prior,形成两条不同方向的链。由头指针 head惟一确定。双链表也可以头尾相链接构成双(向)循环链表。双链表上的插入和删除时间复杂度均为O (1)o顺序表和链表的比较:基于空间:顺序表的存储空间是静态分配,存储密度为1;适于线性表事先确定其大小时采用。链表的存储空间是动态分配,存储密度0个结点的有限集,它是空集(n=0)或由一个根结点及两棵 互不相交的分别称作这个根的左子树和右子树的二叉树组成。二叉树不是树的特殊情形,与度数为2的有序树不同。二叉小勺4
8、个重要性质:二叉树上第i层上的结点数目最多为 2A (i-1)(i)1)。; 深度为k的二叉树至多有(2人0-1个结点(k1); 在任意一棵二叉树中,若终端结点的个数为 n0,度为2的结点数为n2,则n0=n2+1; 具有n个结点的完全二叉树的深度为int (log2n) +1.满二叉树是一棵深度为k,结点数为(2Ak) -1的二叉树;完全二叉树是满二叉树在最下层自右向左去处部分结点;二叉树的顺序存储结构就是把二叉树的所有结点按照层次顺序存储到连续的存储单元中。(存储前先将其画成完全二叉树)树的存储结构多用的是链式存储。BinTNode的结构为lchild|data|rchild ,把所有Bi
9、nTNode类型的结点,加上一个指向根结点的BinTree型头指针就构成了二叉树的链式存储结构,称为二叉链表。它就是由根指针root唯一确定的。共有2n个指针域,n+1个空指针。根据访问结点的次序不同可得三种遍历:先序遍历(前序遍历或先根遍历),中序遍历(或中根遍历)、后序遍历(或后根遍历)。时间复杂度为 O (n)。利用二叉链表中的n+1个空指针域来存放指向某种遍历次序下的前趋结点和后继结点的指针,这些附加的指针就称为“线索”,加上线索的二叉链表就称为线索链表。线索使得查找中序前趋和中序后继变得简单有效,但对于查找指定结 点的前序前趋和后序后继并没有什么作用。树和森林及二叉树的转换是唯一对应
10、的。转换方法:树变二叉树:兄弟相连,保留长子的连线。二叉树变树:结点的右孩子与其双亲连。森林变二叉树:树变二叉树,各个树的根相连。树的存储结构:有双亲链表表示法:结点 data | parent,对于求指定结点的双亲或祖先 十分方便,但不适于求指定结点的孩子及后代。 孩子链表表示法:为树中每个结点data | next设置一个孩子链表firstchild ,并将data | firstchild存放在一个向量中。 双亲孩子链表表示法:将双亲链表和孩子链表结合。 孩子兄弟链表表示法:结点结构leftmostchild |data | rightsibing ,附加两个分别指向该结点的最左孩子和右
11、邻兄弟的指针域。树的前序遍历与相对应的二叉树的前序遍历一致;树的后序遍历与相对应的二叉树的中序遍历一致。树的带权路径长度是树中所有叶结点的带权路径长度之和。树的带权路径长度最小的二叉树就称为最优二叉树(即哈夫曼树)。在叶子的权值相同的二叉树中,完全二叉树的路径长度最短。哈夫曼树有n个叶结点,共有2n-1个结点,没有度为1的结点,这类树又称为严 格二叉树。变长编码技术可以使频度高的字符编码短,而频度低的字符编码长,但是变长编码可能使解码产生二义性。如00、01、0001这三个码无法在解码时确定是哪一个,所以要求在字符编码时任一字符的编码都不是其他字符编码的 前缀,这种码称为前缀码(其实是非前缀码
12、)。哈夫曼树的应用最广泛地是在编码技术上,它能够容易地求出给定字符集及其概率分布的最优前缀码。哈夫曼编码的构造很容易,只要画好了哈夫曼树,按分支情况在左 路径上写代码0,右路径上写代码1,然后从上到下到叶结 点的相应路径上的代码的序列就是该结点的最优前缀码。第七章图图的逻辑结构特征就是其结点(顶点)的前趋和后继的个数都是没有限制的,即任意两个结点之间之间都可能相关。图GraphG= (V, E), V是顶点的有穷非空集合,E是顶点偶对的有穷集。有向图Digraph :每条边有方向;无向图 Undigraph:每条边没有方向。有向完全图:具有 n* (n-1)条边的有向图;无向完全图:具有 n*
13、 (n-1 ) /2条边的无 向图;有根图:有一个顶点有路径到达其它顶点的有向图;简单路径:是经过顶点不同的路径;简单回路是开始和终端重 的简单路径;网络:是带权的图。图的存储结构: 邻接矩阵表示法:用一个 n阶方阵来表示图的结构是唯一的,适合稠密图。 无向图:邻接矩阵是对称的。有有向图:行是出度,列是入度。建立邻接矩阵算法的时间是O (n+nA2+e),其时间复杂度为 O 5人2) 邻接表表示法:用顶点表和邻接表构成不是唯一的,适合稀疏图。 顶点表结构 vertex | firstedge,指针域存放邻接表头指针。 邻接表:用头指针确定。无向图称边表; 有向图又分出边表和逆邻接表; 邻接表结
14、点结构为 adjvex | next,时间复杂度为 O (n+e)。,空间复杂度为 O (n+e)。图的遍历:深度优先遍历:借助于邻接矩阵的列。使用栈保存已访问结点。广度优先遍历:借助于邻接矩阵的行。使用队列保存已访问结点。生成树的定义:若从图的某个顶点出发,可以系统地访问到图中所有顶点,则遍历 时经过的边和图的所有顶点 构成的子图称作该图的生成树。最小生成树:图的生成树不唯一,从不同的顶点出发可得到不同的生成树,把权值最小的生成树称为最小生成树(MST)o构造最小生成树的算法: Prim算法的时间复杂度为 O 5人2)与边数无关适于稠密图。- Kruskal算法的时间复杂度为 O (lge)
15、,主要取决于边数,较适合于稀疏图。最短路径的算法: Dijkstra算法,时间复杂度为 O (nV)类似于prim算法。拓扑排序:是将有向无环图 G中所有顶点排成一个线性序列,若GE (G),则在线性序列u在v之前, 这种线性序列称为拓扑序列。拓扑排序也有两种方法:无前趋的顶点优先,每次输出一个无前趋的结点并删去此结点及其出边,最后得到的序列即拓扑序列。 无后继的结点优先:每次输出一个无后继的结点并删去此结点及其入边,最后得到的序列是逆拓扑序列。第八章排序记录中可用某一项来标识一个记录,则称为关键字项,该数据项的值称为关键字。排序是使文件中的记录按关键字递增(或递减)次序排列起来。 基本操作:
16、比较关键字大小;改变指向记录的指针或移动记录。 存储结构:顺序结构、链表结构、索引结构。经过排序后这些具有相同关键字的记录之间的相对次序保持不变,则称这种排序方法是稳定的,否则排序算法是不稳定的。排序过程中不涉及数据的内、外存交换则称之为“内部排序”(内排序),反之,若存在数据的内外存交换,则称之为外排序。内部排序方法可分五类:插入排序、选择排序、交换排序、归并排序和分配排序。评价排序算法好坏的标准主要有两条:执行时间和所需的辅助空间,另外算法的复杂程序也是要考虑的一个因素插入排序:直接插入排序:逐个向前插入到合适位置。 哨兵(监视哨)有两个作用:作为临变量存放 Ri 是在查找循环中用来监视下
17、标变量j是否越界。直直接插入排序是就地的稳定排序。时间复杂度为O 5人2),比较次数为(n+2)(n-1) /2;移动次数为(n+4) (n-1) /2;希尔排序:等间隔的数据比较并按要求顺序排列,最后间隔为1. 希尔排序是就地的不稳定排序。时间复杂度为O 5人1.25),比较次数为 5人1.25);移动次数为(1.6nA1.25);交换排序:冒泡排序:自下向上确定最轻的一个。自上向下确定最重的一个。自 下向上确定最轻的一个,后自上向下确定最重的一个。 冒泡排序是就地的稳定排序。时间复杂度为O (门人2),比较次数为n (n-1) /2;移动次数为3n (n-1) /2; 快速排序:以第一个元
18、素为参考基准,设定、动两个指针,发生交换后指针交 换位置,直到指针重合。重复直到排序完成。 快速排序是非就地的不稳定排序。时间复杂度为O (nlog2n),比较次数为n (n-1)选择排序:直接选择排序:选择最小的放在比较区前。直直接选择排序就地的不稳定排序。时间复杂度为O 5人2)。比较次数为n (n-1) 堆排序建堆:按层次将数据填入完全二叉树,从 int (n/2)处向前逐个调整 位置。 然后将树根与最后一个叶子交换值并断开与树的连接并重建堆,直到全断开。 堆排序是就地不稳定的排序,时间复杂度为O (nlog2n),不适宜于记录数较少的文件。归并排序:先两个一组排序,形成(n+1) /2
19、组,再将两组并一组,直到剩下一 组为止。 归并排序是非就地稳定排序,时间复杂度是O (nlog2n),分配排序:箱排序:按关键字的取值范围确定箱子数,按关键字投入箱子,链 接所有非空箱。 箱排序的平均时间复杂度是线性的O ( n)。基数排序:从低位到高位依次对关键字进行箱排序。基数排序是非就稳定的排序,时间复杂度是O (d*n+d*rd )。各种排序方法的比较和选择:待排序的记录数目n; n较大的要用时间复杂度为O (nlog2n)的排序方法; 记录的大小(规模);记录大最好用链表作为存储结构,而快速排序和堆排序在链表上难于实现; 关键字的结构及其初始状态;对稳定性的要求; 语言工具的条件;存
20、储结构;时间和辅助空间复杂度。第九章查找查找的同时对表做修改操作 (如插入或删除)则相应的表称之为动态查找表,否则称之为静态查找表。衡量查找算法效率优劣的标准是在查找过程中对关键字需要执行的平均比较次数(即平均查找长度ASL)。线性表查找的方法:顺序查找:逐个查找,ASL= (n+1) /2; 二分查找:取中点int (n/2)比较,若小就比左区间,大就比右区间。用二叉判 定树表示。ASL=(万(每层结点数*层数)/N. 分块查找。要求“分块有序”,将表分成若干块内部不一定有序,并抽取各块中 的最大关键字及其位置建立有序索引表。二叉排序树(BST)定义是:二叉排序树是空树或者满足如下性质的二叉
21、树:若它的左子树非空,则左子树上所有结点的值均小于根结点的值; 若它的右子树非空,则右子树上所有结点的值均大于根结点的值;左、右子树本身又是一棵二叉排序树。二叉排序树的插入、建立、删除的算法平均时间性能是O (nlog2n)。二叉排序树的删除操作可分三种情况进行处理:-*P是叶子,则直接删除*P,即将*P的双亲*parent中指向*P的指针域置空即可。 *P只有一个孩子*child ,此时只需将*child和*p的双亲直接连接就可删去*p. *p有两个孩子,则先将*p结点的中序后继结点的数据到 *p ,删除中序后继结点。关于B-树(多路平衡查找树)。它适合在磁盘等直接存取设备上组织动态的查找表
22、, 是一种外查找算法。建立的方式是从下向上拱起。散列技术:将结点按其关键字的散列地址存储到散列表的过程称为散列。散列函数的选择有两条标准:简单和均匀。常见的散列函数构的造方法:平方取中法:hash=int (xA2) %100)除余法:表长为 m, hash=x%m相乘取整法:hash=int (m* (x*A-int (x*A); A=0.618随机数法: hash=random (x)。处理冲突的方法:开放定址法:一般形式为hi= (h(key) +di) %m1 i m-1 ,开放定址法要求散列表的装填因子a 0 1.开放定址法类型:线性探查法:address= (hash (x) +i
23、) %m;二次探查法:address= (hash (x) +1人2) %m;双重散列法:address= (hash(x) +i*hash (y) %m;拉链法:是将所有关键字为同义词的结点链接在同一个单链表中。拉链法的优点:拉链法处理冲突简单,且无堆积现象;链表上的结点空间是动态申请的适于无法确定表长的情况;拉链法中a可以大于1,结点较大时其指针域可忽略,因此节省空间;拉链法构造的散列表删除结点易实现。拉链法也有缺点:当结点规模较小时,用拉链法中的指针域也要占用额外空间,还是开放定址法省空间。第十章排序10.1 排序的基本概念10.2 插入排序10.3 选择排序10.4 交换排序本章主要知
24、识点:排序的基本概念和衡量排序算法优劣的标准,其中衡量标准有算法的时间复杂度、空间复杂度和稳定性直接插入排序,希尔排序直接选择排序,堆排序冒泡排序,快速排序10.1排序的基本概念1 .排序是对数据元素序列建立某种有序排列的过程。2 .排序的目的:便于查找。3 .关键字是要排序的数据元素集合中的一个域,排序是以关键字为基准进行的。关键字分主关键字和次关键字两种。对要排序的数据元素集合来说,如果关键字满足数据元素值不同时该关键字的值也一定不同,这样的关键字称为主关键字。不满足主关键字定义的关键字称为次关键字。4 .排序的种类:分为内部排序和外部排序两大类。若待排序记录都在内存中,称为内部排序;若待
25、排序记录一部分在内存,一部分 在外存,则称为外部排序。注:外部排序时,要将数据分批调入内存来排序,中间结果还要及时放入外存,显然外部排序要复杂得多。5 .排序算法好坏的衡量标准:(1)时间复杂度它主要是分析记录关键字的比较次数和记录的移动次数。(2)空间复杂度一一算法中使用的内存辅助空间的多少。(3)稳定性一一若两个记录A和B的关键字值相等,但排序后A、B的先后次序保持不变,则称这种排序算法是稳定的。10.2插入排序插入排序的基本思想是:每步将一个待排序的对象,按其关键字大小,插入到前面已经排好序的一组对象的适当位置上,直到对象全部插入为止。简言之,边插入边排序,保证子序列中随时都是排好序的。
26、常用的插入排序有:直接插入排序和希尔排序两种。10.2.1 直接插入排序1、其基本思想是:顺序地把待排序的数据元素按其关键字值的大小插入到已排序数据元素子集合的适当位置。例 1:关键字序列 T= (13, 6, 3, 31, 9, 27, 5, 11),请写出直接插入排序的中间过程序列。初始关键字序列:【13】,6, 3, 31,9, 27, 5, 11第一次排序:【6,13,3, 31,9, 27, 5, 11第二次排序:3, 6, 13 , 31,9, 27, 5, 11第三次排序:3, 6,13, 31,9, 27, 5, 11第四次排序:3, 6, 9,13, 31,27, 5, 11
27、第五次排序:3, 6, 9,13, 27, 31,5, 11第六次排序:3, 5, 6, 9,13, 27, 31,11第七次排序:3, 5, 6, 9, 11, 13, 27, 31注:方括号中为已排序记录的关键字,下划横线的 关键字表示它对应的记录后移一个位置。2.直接插入排序算法public static void insertSort(int a)int i, j, temp;int n = a.Length;for(i = 0; i -1 & temp aj)aj + 1 = aj;j -;aj + 1 = temp; 初始关键字序列:【13】,6, 3, 31,9, 27, 5,
28、11第一次排序:【6,13,3, 31,9, 27, 5, 11第二次排序:3, 6, 13 , 31,9, 27, 5, 113、直接插入排序算法分析(1)时间效率:当数据有序时,执行效率最好,此时的时间复杂度为 O(n);当数据基本 反序时,执行效率最差,此时的时间复杂度为O(n2)。所以当数据越接近有序,直接插入排序算法的性能越好。空间效率:仅占用1个缓冲单元一一O (1)(3)算法的稳定性:稳定8.2.2希尔(shell)排序(又称缩小增量排序)1、基本思想:把整个待排序的数据元素分成若干个小组,对同一小组内的数据元素用 直接插入法排序;小组的个数逐次缩小,当完成了所有数据元素都在一个
29、组内的排序后 排序过程结束。2、技巧:小组的构成不是简单地逐段分割”,而是将相隔某个增量d的记录组成一个小组,让增量d逐趟缩短(例如依次取5,3,1),直到 d= 1为止。3、优点:让关键字值小的元素能很快前移,且序列若基本有序时,再用直接插入排序 处理,时间效率会高很多。例2:设待排序的序列中有12个记录,它们的关键字序列T=(65, 34, 25, 87, 12,38, 56, 46, 14, 77, 92, 23),请写出希尔排序的具体实现过程。public static void shellSort(int a, int d, int numOfD)int i, j, k, m, sp
30、an;int temp;int n = a.Length;for(m = 0; m numOfD; m +) 共 numOfD 次循环span = dm;取本次的增量值for(k = 0; k span; k +) 共 span 个小组for(i = k; i -1 & temp aj) aj + span = aj;j = j - span;aj + span = temp;算法分析:开始时d的值较大,子序列中的对象较少,排序速度较快;随着排序进展,d值逐渐变小,子序列中对象个数逐渐变多,由于前面工作的基础, 大多数记录已基本有序,所以排序速度仍然很快。时间效率:O(n(log2n)2)空间
31、效率:O(1)因为仅占用1个缓冲单元算法的稳定性:不稳定练习:1 .欲将序列(Q, H, C, Y, P, A, M, S, R, D, F, X )中的关键码按字母升序重排,则初始 d 为4的希尔排序一趟的结果是?答:原始序列:Q, H, C, Y, P, A, M, S, R, D, F, Xshell 一趟后:P,A,C,S,Q,D,F,X,R,H,M,Y2 .以关键字序列(256, 301, 751, 129, 937, 863, 742, 694, 076, 438)为例,写 出执行希尔排序(取d=5,3,1)算法的各趟排序结束时,关键字序列的状态。解:原始序列:256, 301,
32、751, 129, 937, 863, 742, 694, 076, 438希尔排序第一趟 d=5256301694076438863742751129937第二趟 d=3076301129256438694742751863937第三趟 d=1076 129 256 301 438 694 742 751 863 93710.3选择排序选择排序的基本思想是:每次从待排序的数据元素集合中选取关键字最小(或最大)的数据元素放到数据元素集合的最前(或最后),数据元素集合不断缩小,当数据元素集合为空时选择排序结束。常用的选择排序算法:(1)直接选择排序(2)堆排序10.3.1直接选择排序1、其基本思
33、想每经过一趟比较就找出一个最小值,与待排序列最前面的位置互换即可。(即从待排序的数据元素集合中选取关键字最小的数据元素并将它与原始数据元素集合中的第一个数据元素交换位置;然后从不包括第一个位置的数据元素集合中选取关键 字最小的数据元素并将它与原始数据集合中的第二个数据元素交换位置;如此重复,直到数据元素集合中只剩一个数据元素为止。)2、优缺点优点:实现简单缺点:每趟只能确定一个元素,表长为 n时需要n-1趟例3:关键字序列T= (21, 25, 49, 25*, 16, 08),请给出直接选择排序的具体实现过程。原始序列:21,25,49,25*,16,08第1趟08,25,49, 25*,1
34、6, 21第2趟08,16,49,25*,25,21第3趟08,16,21,25*,25,49第4趟08,16,21,25*,25,49第5趟08,16,21,25*,25,49public static void selectSort(int a)int i, j, small;int temp;int n = a.Length;for(i = 0; i n - 1; i +)small = i;/设第i个数据元素最小for(j = i + 1; j n; j +)寻找最小的数据元素if(aj asmall) small = j;记住最小元素的下标if(small != i)当最小元素的下标不为i时交换位置temp = ai;ai = asmall;asmall = temp;3、算法分析时间效率:O(n2)虽移动次数较少,但比较次数仍多。空间效率:O (1)没有附加单元(仅用到 1个temp)算法的稳定性:不稳定4、稳定的直接选择排序算法例:关键字序列T= (21, 25, 49, 25*, 16, 08),请给出稳定的直接选择排序的具体实现过程原始序列:21, 25, 49, 25*, 16, 08第 1 趟 08,21 , 25 , 49 ,25 *, 16第 2 趟 08, 16, 第 3 趟 08, 16,