1、第 1 章 数据结构与算法考纲考纲提示本章主要考查数据结构及相关基本概念、几种典型的数据结构及其操作、算法的概念及算法复杂度、主要的查找及排序算法。在新考纲的公共基础部分中,约占 30%的比例。知识点归纳【算法的基本概念】算法是解题方案准确而完整的描述。它是对特定问题求解步骤的一种描述,是指令的有限序列,其中每条指令表示一个或多个操作。严格说来,一个算法必须具有下列 5 个主要特性。(1)有穷性。一个算法必须在执行有穷步之后结束(对任何合法的输入值) ,而且每一步都必须在有穷时间内完成。 (2)确 定 性 。 算 法 中 每 条 指 令 必 须 有 确 切 含 义 , 且 在 任 何 条 件
2、下 , 算 法 只 有 惟 一 的一 条 执 行 路 径 。( 3) 可 行 性 。 算 法 中 描 述 的 操 作 都 是 可 以 通 过 已 经 实 现 的 基 本 运 算 执 行 有 限 次 来 实 现 的 。(4)有输入。一个算法有 0 个或多个输入,这些输入取自于某个特定的对象集合。(5)有 输 出 。 一 个 算 法 有 0 个 或 多 个 输 出 , 这 些 输 出 是 同 输 入 有 着 某 些 特 定 关 系 的 量 。综上所述,算法是一组严谨的定义运算顺序的规则,而且每一个规则都是有效且明确的,此顺序将在有限的次数下终止。1算法的基本概念;算法复杂度的概念和意义。2数据结构
3、的定 义;数据的逻辑结构与存储结构;数据结构的 图形表示;线性结构与非线性结构的概念。3线性表的定 义;线性表的顺序存储结构及其插入与删除运算。4栈和队列的定 义;栈和队列的顺序存储结构及其基本运算。5线性单链表,双向链表与循环链表的结构及其基本运算。6树的基本概念;二叉 树的定义及其存储结构;二叉树的前序、中序和后序遍历。7顺序查找与二分 查找算法;基本排序算法(交换类排序、选择类排序、插入类排序)。【算法的复杂度】算法的复杂度是本章的重点也是难点。选用算法首先要考虑正确性,还要考虑执行算法所耗费的时间和存储空间,同时,算法应易于理解、编码、调试等。算法的复杂度可分为时间复杂度和空间复杂度,
4、是衡量算法优劣的量度。1算法的时间复杂度算法的时间复杂度是指执行算法所需要的计算工作量。一般情况下,算法中的基本操作 重 复 执 行 的 次 数 是 问 题 规 模 n 的 某 个 函 数 f (n)。 算 法 的 时 间 量 度 记 作 : 算 法 的 工 作 量 = f (n),它表示随问题规模 n 的增大,算法执行时间的增长率和 f (n)的增长率相同,称作算法的渐进时间复杂度,简称时间复杂度。2算法的空间复杂度一个算法的空间复杂度一般是指执行这个算法所需要的内存空间,即算法程序所占用的空间、初始输入数据所占的存储空间,以及算法执行过程中所需要的额外空间。【数据结构】利用计算机进行数据处
5、理是计算机应用的一个重要领域。数据结构作为计算机的一门学科,主要研究和讨论以下 3 个方面的问题。(1)数据集合中各数据元素之间所固有的逻辑关系,即数据的逻辑结构。(2)在对数据进行处理时,各数据元素在计算机中的存储关系,即数据的存储结构。(3)对各种数据结构进行的运算。简单地说,数据结构就是问题的数据模型。一般说来,用计算机解决一个具体问题时,大致需要经历下列几个步骤。(1)首先从具体问题抽象出一个适当的数学模型。(2)然后设计一个解此数学模型的算法。(3)最后编写程序、进行测试、调整,直至得到最终解答。寻求数学模型的实质是分析问题,从中提取操作的对象,并找出这些操作对象之间含有的关系,然后
6、用数学的语言加以描述。【数据的逻辑结构】数据结构是指反映数据元素之间关系的数据集合的表示。更通俗地说,数据结构是指带有结构的数据元素之间的前后件关系。因此,所谓结构,实际上就是指数据元素之间的前后件关系。数据的逻辑结构是指数据元素之间的逻辑关系,它可以用一个数据元素的集合和定义在此集合上的若干关系来表示。数据的逻辑结构是从逻辑关系上描述数据,它与数据在计算机中的存储位置无关,是独立于计算机的。【数据的存储结构】数据的存储结构是本章的重要知识点。它是数据元素及其关系在计算机存储器内的表第 4 章 数据库设计基础 3示。数据的存储结构是逻辑结构用计算机语言的实现,即建立数据的机内表示。存储结构的主
7、要内容是指在存储空间中使用一个存储结点来存储一个数据元素;在存储空间中建立各存储结点之间的关联,以表示数据元素之间的逻辑关系。其中存储结点是指一个数据元素在存储结构中的存储。一般来说,一种数据的逻辑结构根据需要可以表示成多种存储结构,常用数据的存储结构有如下 4 种。(1)顺序存储方式。每一个存储结点只含有一个数据元素。所有的存储结点相继存储在一个连续的存储区里。用存储结点之间的位置关系表示数据元素之间的逻辑关系。(2)链式存储方式。每一个存储结点不仅含有各数据元素,还包括指针。每一个指针指向一个与本结点有逻辑关系的结点,即用指针表示逻辑关系。(3)索引存储方式。每一个存储结点仅含有一个数据元
8、素,所有的存储结点都连续存放。此外,增设一个索引表。(4)散列存储方式。每一个存储结点仅含有一个数据元素,数据元素按散列函数确定存储位置。采用不同的存储结构,其数据处理的效率是不同的。因此,在进行数据处理时,选择合适的存储结构是很重要的。【数据的运算】数据运算即对数据施加的操作。常用的运算有如下几种。(1)查找运算。从结构中找出满足某种条件的结点的位置。(2)读取运算。读出结构中指定位置上的内容。(3)插入运算。在结构中的某指定位置上增加一个新的结点。(4)删除运算。撤销结构中指定位置上的结点。(5)更新运算。修改结构中某指定结点的内容。【数据结构的图形表示】一个数据结构除了用二元关系表示外,
9、还可以直接用图形表示。图 1-1 是一些常见数据结构的图形表示示例。(a)线性结构 (b)树形结构 (c)图状结构 (d)集合结构图 1-1 常见数据结构的图形表示示例【线性结构与非线性结构】根据数据结构中各数据元素之间前后件关系的复杂程度,将数据结构分成两大类型:线性结构和非线性结构。1线性结构在数据元素的非空有限集中,线性结构的逻辑特征如下: (1)存在惟一的一个被称作“第一个”的数据元素;(2)存在惟一的一个被称作“最后一个”的数据元素;(3)除第一个之外,集合中的每个数据元素均只有一个前驱;(4)除最后一个之外,集合中的每个数据元素均只有一个后继。线性表是一个线性结构。2非线性结构非线
10、性结构的逻辑特征是:一个结点可能有多个直接前驱和直接后继。例如,树和图都是非线性结构。线性结构与非线性结构都可以是空的数据结构。一个空的数据结构究竟属于线性结构还是非线性结构,要根据具体情况来确定。如果对该数据结构的运算是按线性结构的规则来处理的,则属于线性结构;否则属于非线性结构。【线性表】线性表是最简单、最常用的一种数据结构。线性表是 n 个数据元素的有限序列。每个数据元素的具体含义在不同情况下各不相同,它可以是一个数,或是一个符号,也可以是一页书,甚至其他更复杂的信息。在不同的情况下,它可以有不同的含义。例如,26 个英文字母的字母表(A ,B,C,D,Z)是一个线性表,表中的数据元素是
11、单个字母。又如,某校 19982004 年的计算机拥有量的变化情况,可以用线性表的形式给出:(23,35,67,156,240,287,324) 。表中的数据元素是整数。【线性表的顺序存储结构】线性表的顺序存储结构指的是用一组地址连续的存储单元依次存储线性表中的数据元素。其特点如下:(1)线性表中所有元素所占的存储空间是连续的;(2)线性表中各数据元素在存储空间中是按逻辑顺序依次存放的。可以看出,在线性表的顺序存储结构中,其前后件两个元素在存储空间中是紧邻的,且前件元素一定存储在后件元素的前面。图 1-2 说明了数据元素在计算机内的存储情况。其中 a1,a 2,a n 表示线性表中的数据元素。
12、图 1-2 线性表的顺序存储结构示意图在线性表的顺序存储结构中,如果线性表中各数据元素所占的存储空间(字节数)相等,则要在该线性表中查找某一个元素是很方便的。a1 a2 aiai-1 an线性表的起始地址(基地址)第 4 章 数据库设计基础 5所有数据元素的存储位置均取决于第一个数据元素的存储位置,即:LOC(ai) = LOC(a1) + (i-1) C 基地址 一个数据元素所占的字节数【线性表的插入运算】插入和删除运算是线性表的基本操作。插入运算是指在结构中的某指定位置上增加一个新结点;而删除运算是指撤销结构中某结点的内容。下面依次进行详细讨论。线性表的插入操作是指在线性表的第 i-1 个
13、数据元素和第 i 个数据元素之间插入一个新的数据元素,就是要使长度为 n 的线性表(a1,a i-1,a i,a n)变成长度为 n+1 的线性表(a1,a i-1,b,a i,a n)数据元素 ai-1 和 ai 之间的逻辑关系发生了变化。一般情况下,要在第 i(1in)个元素之前插入一个新元素时,首先要从最后一个(即第 n 个)元素开始,直到第 i 个元素之间共 n-i+1 个元素依次向后移动一个位置,移动结束后,第 i 个位置就被空出,然后将新元素插入到第 i 项。插入结束后,线性表的长度就增加了 1。平均情况下,要在线性表中插入一个新元素,需要移动表中一半的元素。因此,在线性表顺序存储
14、的情况下,要插入一个新元素,其效率是很低的,特别是在线性表比较大的情况下更为突出,由于数据元素的移动而消耗较多的处理时间。【线性表的删除运算】和线性表的插入运算相反,线性表的删除操作是使长度为 n 的线性表(a1,a i-1,a i,a i+1,a n)变为长度为 n-1 的线性表(a1,a i-1,a i+1,a n)数据元素 ai-1,a i 和 ai+1 之间的逻辑关系发生了变化。一般情况下,要删除第 i(1 in)个元素时,要从第 i+1 个元素开始,直到第 n 个元素之间共 n-i 个元素依次向前移动一个位置。删除结束后,线性表的长度就减小了 1。平均情况下,要在线性表中删除一个元素
15、,需要移动表中一半的元素。因此,在线性表顺序存储的情况下,要删除一个元素,其效率也是很低的,特别是在线性表比较大的情况下更为突出,由于数据元素的移动而消耗较多的处理时间。【栈】栈是限定仅在表尾进行插入和删除操作的线性表。因此,对栈来说,表尾端有其特殊的含义,称为栈顶;相应地,表头端称为栈底。栈顶元素总是最后被插入的元素,从而也是最先能被删除的元素;栈底元素总是最先被插入的元素,从而也是最后才能被删除的元素。栈的修改是按“后进先出”或“先进后出”的原则进行的。因此,栈又称为先进后出表或后进先出表。【栈的顺序存储结构】栈的顺序存储结构利用一组地址连续的存储单元,依次存放自栈底到栈顶的数据元素,同时
16、附设指针指示栈顶元素在顺序栈中的位置,如图 1-3 所示。图 1-3 栈的顺序存储结构示意图在图 1-3 中,a 1 为栈底元素, an 为栈顶元素。栈中的元素按照 a1, a2, , an 的次序进栈,退栈的第一个元素为栈顶元素 an。【栈的基本运算】栈的基本运算有 3 种:入栈、出栈与读栈顶元素。1入栈运算入栈运算是指在栈顶插入一个新元素。可分为两个基本操作:首先将栈顶指针进一,然后将新元素插入到栈顶指针指向的位置。当栈顶指针已经指向存储空间的最后一个位置时,说明栈空间已满,不能再进行入栈操作。2退栈运算退栈运算是指取出栈顶元素并赋给一个指定的变量。可分为两个基本操作:首先将栈顶元素(栈顶
17、指针指向的元素)赋给一个指定的变量,然后将栈顶指针退一。当栈顶指针为 0 时,说明栈空,不可能进行退栈操作。3读栈顶元素读栈顶元素是指将栈顶元素赋给一个指定的变量。必须注意,这个运算不删除栈顶元素,只是将它的值赋给一个变量,因此,在这个运算中,栈顶指针不会改变。【队列】队列是限定仅在表的一端进行插入,而在表的另一端删除数据元素的线性表。在队列中,允许插入的一端叫做队尾,允许删除的一端叫做队头。【队列的顺序存储结构】与栈的存储结构相似,在队列的顺序存储结构中,除了用一组地址连续的存储单元依a na 2a 1指向栈顶的指针第 4 章 数据库设计基础 7次存放从队头到队尾的元素之外,还需要附设两个指
18、针,分别指示队头元素和队尾元素的位置。与栈相反,队列是一种先进先出的线性表。它只允许在表的一端进行插入,而在另一端删除元素。这与日常生活中的排队是一样的,早进入队列的早离开。【队列的基本运算】队列的基本运算有入队和退队两种。1入队运算入队运算是指在队尾加入一个新元素。这个运算有两个基本操作:首先将队尾指针进一,然后将新元素插入到队尾指针指向的位置。2退队运算退队运算是指在队头位置退出一个元素并赋值给指定的变量。这个运算有两个基本操作:首先将队头指针进一,然后将队头指针指向的元素赋给指定的变量。【线性单链表】线性表的链式存储结构的特点是用一组任意的存储单元存储线性表的数据元素(这组存储单元可以是
19、连续的,也可以是不连续的) 。因此,为了表示每个数据元素 ai 与其直接后继元素 ai+1 之间的逻辑关系,对数据元素 ai 来说,除了存储其本身的信息之外,还需要存储一个指示其直接后继的信息(即直接后继的存储信息) 。这两部分信息组成数据元素ai 的存储映像,称为结点。它包括两个域:(1)存储数据元素信息的域称为数据域;(2)存储直接后继存储位置的域称为指针域。指针域中存储的信息称为指针或链。N 个结点链接成一个链表,即为线性表的链式存储结构,又由于此链表的每个结点中只包含一个指针域,故又称线性链表或单链表。通常以线性表中第一个数据元素的存储地址作为线性表的地址,称作线性表的头指针。有时,为
20、了操作方便,在第一个结点之前虚加一个“头结点” ,以指向头结点的指针为链表的 头 指 针 。 整 个 链 表 存 取 必 须 从 头 指 针 开 始 进 行 , 头 指 针 指 示 链 表 中 第 一 个 结 点 的 存储 位 置 。 同 时 , 由 于 最 后 一 个 数 据 元 素 没 有 直 接 后 继 , 则 线 性 链 表 中 最 后 一 个 结 点 的 指针 为 “空 ”。【循环链表】循环链表是另一种形式的链式存储结构。它的特点是表中最后一个结点的指针域指向头结点,整个链表形成一个环。由此,从表中任一结点出发均可找到表中的其他结点。循环链表和单链表的差别仅在于判断链表中最后一个结点
21、的条件不再是“后继是否为空” ,而是“后继是否为头结点” 。【双向链表】以上讨论的链式存储结构的结点中,只有一个指示直接后继的指针域,由此从某个点出发,只能顺指针往后寻查其他结点。若要寻查结点的直接前驱,则需要从表头指针出发,这样影响查找效率。为了克服单链表这种单向性的缺点,可利用双向链表。在双向链表的结点中,有两个指针域,其一指向直接后继,另一个指向直接前驱。【链表的基本操作】链表的基本操作可以分为“插入”和“删除”两种。1插入操作假设要在线性表的两个数据元素 a 和 b 之间插入一个数据元素 x,已知 p 为其链表存储结构中指向结点 a 的指针。如图 1-4(a)所示。为插入数据元素 x,
22、首先要生成一个数据域为 x 的结点,然后插入在链表中。根据插入操作的逻辑定义,还需要修改结点 a 中的指针域,令其指向结点 x,而结点 x 中的指针域应指向结点 b,从而实现 3 个元素 a、b 和 x 之间逻辑关系变化。插入后的链表如图 1-4(b)所示。(a)插入前 (b)插入后图 1-4 链表的插入操作2删除操作反之,如图 1-5 所示,在线性表中删除元素 b 时,为在链表中实现元素 a、b 和 c 之间逻辑关系的变化,仅须修改结点 a 中的指针域即可。图 1-5 链表的删除操作【树及其基本概念】树是一种简单的非线性结构。在树这种数据结构中,所有数据元素之间的关系具有明显的层次性。图 1
23、-6 表示了一棵一般的树。由此图可以看出,在用图形表示树这种数据结构时,很像自然界中的树。树是 n(n0) 个结点的有限集。在任意一棵非空树中:(1)有且仅有一个特定的称为根的结点;(2)当 n1 时,其余结点可分为 m(m 0)个互不相交的有限集 T1, T2, , Tm。其中,每个有限集本身又是一棵树,并且称为根的子树。在图 1-6 中可以看到树的根结点 A 及子树(a) 。有关树的基本术语有很多,其中常用的有以下几种。(1)结点。包含一个数据元素及若干指向其子树的分支。(2)结点的度。结点拥有的子树数。如在图 1-6 中,结点 A 的度为 3,C 的度为 1。apb ca bp paxb
24、第 4 章 数据库设计基础 9(3)叶子。度为 0 的结点称为叶子。如在图 1-6 中,E、I 、J、G、H 都是叶子结点。图 1-6 树的结构示例(4)孩子和双亲。结点的子树的根称为该结点的孩子,相应地,该结点称为孩子的双亲。同一个双亲的孩子之间互称为兄弟。例如,在图 1-6 中,F 为子树(a)的根,则 F是 B 的孩子,而 A 是 B、C 、 D 的双亲,B 、C、D 互为兄弟。(5)层次。结点的层次从根开始定义,根为第一层,根的孩子为第二层。若某结点在第 i 层,则其子树的根就在第 i+1 层。(6)深度。树中结点的最大层次称为树的深度或高度。如图 1-6 中的树深度为 4。【二叉树】
25、二叉树及其相关的概念和操作是本章中非常重要的知识点。二叉树是另一种树形结构,它的特点是每个结点至多只有两棵子树,并且二叉树的子树有左右之分,其次序不能任意颠倒。图 1-7 是一棵二叉树的示例。图 1-7 二叉树示例【二叉树的存储结构】1二叉树的顺序存储结构在二叉树的第零层有 20=1 个结点即根结点。第一层根据根结点子结点的个数不同有1 或 2 个结点。第二层的结点总数为 14 不等,最大值 4 只有当根结点及其两个子结点都ACG HDBE FI J(a)(b)(a)(b)RTL TR左子树 右子树R1R2L1L2 L3L4拥有最多的子结点数目(即两个子结点)时才能达到。一般情况下,二叉树的第
26、 n 层的结点数可以在 12n 之间变化。每层平均的结点数定义为树的密度。树的密度也可看作是对树的规模(结点数目)相对于树的深度的衡量。在图 1-8 中,树 A 有 9 个结点,深度为 3,而树 B 有 5 个结点,深度为 4。后者是一种特殊的情况,称为退化树,因为只有一个叶结点,且每一个非叶结点只有一个子结点。n 结点退化树的深度为 n-1。可以看出,退化的树和链表是等价的。图 1-8 二叉树和退化树作为一种数据结构,高密度的树更加重要,因为它能够更紧密地将结点聚集在根结点的周围。这样访问数据的路径就可以尽可能地短。更精确地说,退化树的密度是一种极端情况。另一个极端,深度为 n 的完全的二叉
27、树的第 0 层到第 n 1 层的结点是满的,而在第 n 层,叶子结点则占据了最左边的位置。最大的深度为 n 的完全二叉树在第 n 层有 2n个结点。在这样的二叉树中,每个内部结点有两个子结点。图 1-9 区分了完全和非完全二叉树。AF GCBD EH I树 A9 个结点,深度为 3ABCDE树 B5 个结点,深度为 4BDAEH I JCF G完全二叉树(深度 2)具有所有可能的结点BAD ECF G完全二叉树( 深度 3)BDAEH IC非完全二叉树(深度 3)层次 2 遗漏结点BDAEH I KCF G非完全二叉树(深度 3)层次 3 的结点不在最左边的位置H ID EBACHDBAEKICF G