1、数据结构,李云清 杨庆红 揭安全,高等学校精品课程,人民邮电出版社,(第2版),什么是数据结构,数据类型和抽象数据类型,算法和算法分析,第一章 概述,瑞士著名的计算机科学家Nicklaus Wirth在1976年出版了一本书,书名为算法+数据结构 = 程序设计,它正说明了数据结构在程序设计中的作用。程序设计的实质即为计算机处理问题编制一组“指令“,首先需要解决两个问题:即算法和数据结构。算法即处理问题的策略,而数据结构即为问题的数学模型。 很多数值计算问题的数学模型通常可用一组线性或非线性的代数方程组或微分方程组来描述,而大量非数值计算问题的数学模型正是本门课程要讨论的数据结构。,第一章 概述
2、,例1、求 n 个整数中的最大值。这似乎不成问题,但如果这些整数的值有可能达到1012,那么对32位的计算机来说,就存在一个如何表示的问题。,例2、交叉路口的红绿灯管理。如今十字路口横竖两个方向都有三个红绿灯,分别控制左拐、直行和右拐,那么如何控制这些红绿灯既使交通不堵塞,又使流量最大呢?若要编制程序解决问题,首先要解决一个如何表示的问题。,例3、煤气管道的铺设问题。如图需为城市的各小区之间铺设煤气管道,对 n 个小区只需铺设 n-1 条管线,由于地理环境不同等因素使各条管线所需投资不同(如图上所标识),如何使投资成本最低?这是一个讨论图的生成树的问题。,以上所举例子中的数学模型正是数据结构要
3、讨论的问题。因此,简单地说,数据结构是一门讨论“描述现实世界实体的数学模型(非数值计算)及其上的操作在计算机中如何表示和实现“的学科。,而信息的表示和组织又直接关系到处理信息的程序的效率。随着计算机的普及,信息量的增加,信息范围的拓宽,使许多系统程序和应用程序的规模很大,结构又相当复杂。因此,为了编写出一个“好”的程序,必须分析待处理的对象的特征及各对象之间存在的关系,这就是数据结构这门课所要研究的问题。,计算机是一门研究用计算机进行信息表示和处理的科学。这里面涉及到两个问题:,信息的表示信息的处理,综上所述,1.1数据结构,1.1.1数据结构,随着计算机软、硬件的发展,计算机的应用范围在不断
4、扩大,计算机所处理的数据的数量也在不断扩大,计算机所处理的数据已不再是单纯的数值数据,而更多的是非数值数据。需要处理的数据并不是杂乱无章的,它们一定有内在的联系,只有弄清楚它们之间的本质的联系,才能使用计算机对大量的数据进行有效的处理。,例4 某电信公司的市话用户信息表格如下图所示:,这里序号、用户名、电话号码等项称为基本项,它是有独立意义的最小标识单位,而用户住址称为组合项,组合项是由一个或多个基本项或组合项组成,是有独立意义的标识单位,每一行称为一个结点,每一个组合项称为一个字段。使用计算机处理用户信息表中的数据时,必须弄清楚下面3个问题:,1 数据的逻辑结构,这些数据之间有什么样的内在联
5、系?,除最前和最后两个结点之外,表中所有其它的结点都有且仅有一个和它相邻位于它之前的一个结点,也有且仅有一个和它相邻位于它之后的一个结点,这些就是用户信息表的逻辑结构。,2 数据的存储结构,将用户信息表中的所有结点存入计算机时,就必须考虑存储结构,使用C语言进行设计时,常见的方式是用一个结构数组来存储整个用户信息表,每一个数组元素是一个结构,它对应于用户信息表中的一个结点。数据在计算机的存储方式称为存储结构。,3 数据的运算集合,数据处理必涉及到相关的运算,在上述用户信息表中,可以有删除一个用户、增加一个用户和查找某个用户等操作。应该明确指明这些操作的含义。比如删除操作,是删除序号为5的用户还
6、是删除用户名为王三的用户是应该明确定义的,如果需要可以定义两个不同的删除操作,为一批数据定义的所有运算(或称操作)构成一个运算(操作)集合。,对待处理的数据,只有分析清楚上面3个方面的问题,才能进行有效的处理!,数据结构就是指按一定的逻辑结构组成的一批数据,使用某种存储结构将这批数据存储于计算机中,并在这些数据上定义了一个运算集合。,基于这个二维表格,我们可以在上面执行的操 作有:增加一个元素,删除元素,查找元素等。存在的问题:线性查找的效率较低(等概率情况下为n/2)。数组存储时插入一个元素与删除一个元素效率较低。解决办法:改变数据存储结构,在新的存储结构上开发新的算法。,找95,找35,1
7、.1.2数据的逻辑结构,数据的逻辑结构是数据和数据之间所存在的逻辑关系,它可以用一个二元组 B=(K,R) 来表示,其中K是数据、即结点的有限集合;R是集合K上关系的有限集合,这里的关系是从集合K到集合K的关系,这里一般只涉及到一个关系的逻辑结构。,1.1.2数据的逻辑结构,例如,有5个人,分别记为a,b,c,d ,e,其中a是b的父亲,b是c的父亲,c是d的父亲,d是e的父亲,如果只讨论他们之间所存在的父子关系,则可以用下面的二元组形式化地予以表达。 B=(K,R) 其中:K=a,b,c,d,eR=rr=, ,逻辑结构的图形表示方式,对K中的每个结点ki用一个方框表示,而结点之间的关系用带箭
8、头的线段表示,这5人之间的逻辑结构用图形的方式表达如下图 所示。,若kiK,kjR, r,则称ki是kj的相对于关系r的前驱结点,kj是ki的相对于关系r的后继结点,因为一般只讨论具有一种关系的逻辑结构,即R=r,所以简称ki是kj前驱,kj是ki的后继。如果某个结点没有前驱结点,称之为开始结点;如果某个结点没有后继结点,称之为终端结点;既不是开始结点也不是终端结点的结点称为内部结点。,线性逻辑结构,二、树型结构 结构中的数据元素之间存在一对多的关系。,三、图状结构或网状结构 结构中的数据元素之间存在多对多的关系。,1.1.3数据的存储结构,数据的逻辑结构是独立于计算机的,它与数据在计算机中的
9、存储无关,要对数据进行处理,就必须将数据存储在计算机中。如果将数据在计算机中无规律地存储,那么在处理时是非常糟的,是没有用的。试想一下,如果一本英汉字典中的单词是随意编排的,这本字典谁会用!对于一个数据结构B=(K,R),必须建立从结点集合到计算机某个存储区域M的一个映象,这个映象要直接或间接地表达结点之间的关系R。数据在计算机中的存储方式称为数据的存储结构。,数据的存储结构主要有4种。,1 顺序存储顺序存储通常用于存储具有线性结构的数据。将逻辑上相邻的结点存储在连续存储区域M的相邻的存储单元中,使得逻辑相邻的结点一定是物理位置相邻。,对于一个数据结构B=(K,R) 其中K=k1,k2,k3,
10、k4,k5,k6,k7,k8,k9 R=r r=, 它的顺序存储方式如图所示:,存储地址 M,1001 1002 1003 1004 1005 1006 1007 1008 1009,特点:用物理相邻的位置关系表示其逻辑关系,2 链式存储链式存储方式是给每个结点附加一个指针段,一个结点的指针所指的是该结点的后继的存储地址,因为一个结点可能有多个后继,所以指针段可以是一个指针,也可以是一个多个指针。,例,数据的逻辑结构B=(K,R) 其中 K=k1,k2,k3,k4,k5 R=rr=, 这是一个线性结构,它的链式存储如图所示。,1000 1001 1002 1003 1004 1005 1006
11、 1007 1008,存储地址 info next,特点:逻辑上相邻物理上不一定相邻。,3 索引存储在线性结构中,设开始结点的索引号为1,其它结点的索引号等于其前继结点的索引号加1,则每一个结点都有唯一的索引号,索引号就是根据结点的索引号确定该结点的存储地址。,4 散列存储散列存储的思想是构造一个从集合K到存储区域M的一个函数h,该函数的定义域为K,值域为M,K中的每个结点ki在计算机中的存储地址由h(ki)确定。,1.1.4数据的运算集合,对于一批数据,数据的运算是定义在数据的逻辑结构之上的,而运算的具体实现就依赖于数据的存储结构。,数据的运算集合要视情况而定,一般而言,数据的运算包括插入、
12、删除、检索、输出、排序等。 插入:在一个结构中增加一个新的结点。 删除:在一个结构删除一个结点。 检索:在一个结构中查找满足条件的结点。 输出:将一个结构中所有结点的值打印、输出。 排序:将一个结构中所有结点按某种顺序重新排列。,在程序设计中,数据和运算是两个不可缺少的因素。所有的程序设计活动都是围绕着数据和其上的相关运算而进行的。从机器指令、汇编语言中的数据没有类型的概念,到现在的面向对象程序设计语言中抽象数据类型概念的出现,程序设计中的数据经历了一次次抽象,数据的抽象经历了三个发展阶段。,1.2数据类型和抽象数据类型,从无类型的二进制数到基本数据类型的产生,从基本数据类型到用户自定义类型的
13、产生,从用户自定义类型到抽象数据类型的出现,1.2.1数据类型,数据类型(或简称类型)反映了数据的取值范围以及对这类数据可以施加的运算。,1.2.2数据结构,数据结构是计算机科学中广泛使用的一个术语,在计算机科学中具有非常重要的作用。数据结构包括三个方面的内容:一组数据中各数据之间的逻辑关系;这组数据在计算机中的存储方式;对这组数据所能施加的运算的集合。数据结构是数据存在的形式。所有的数据都是按照数据结构进行分类的。简单数据类型对应于简单的数据结构;构造数据类型对应于复杂的数据结构。,1.2.3抽象数据类型,抽象数据类型是与表示无关的数据类型,是一个数据模型及定义在该模型上的一组运算。对一个抽
14、象数据类型进行定义时,必须给出它的名字及各运算的运算符名,即函数名,并且规定这些函数的参数性质。,1.2.4抽象数据类型的描述和实现,抽象数据类型的描述包括给出抽象数据类型的名称、数据的集合、数据之间的关系和操作的集合等方面的描述。抽象数据类型的设计者根据这些描述给出操作的具体实现,抽象数据类型的使用者依据这些描述使用抽象数据类型。,抽象数据类型描述的一般形式如下: ADT 抽象数据类型名称 数据对象:数据关系:操作集合:操作名1:操作名n: ADT抽象数据类型名称,1.3 算法和算法分析,1.3.1算法,为了求解某问题,必须给出一系列的运算规则,这一系列的运算规则是有限的,表达了求解问题方法
15、和步骤,这就是一个算法。一个算法可以用自然语言描述,也可以用高级程序设计语言描述,也可以用伪代码描述。本书采用C语言对算法进行描述。,算法具有五个基本特征: 有穷性,算法的执行必须在有限步内结束。 确定性,算法的每一步骤必须是确定无二义性的。 输入, 算法可以有0个或多个输入。 输出, 算法一定有输出结果 可行性,算法中的运算都必须是可以实现的。,算法具有有穷性,程序不需要具备有穷性。一般的程序都会在有限时间内终止,但有的程序却可以不在有限时间内终止,如一个操作系统在正常情况下是永远都不会终止的。,1.3.2算法的时间和空间复杂性,一个算法的优劣主要从算法的执行时间和所需要占用的存储空间两个方
16、面衡量,算法执行时间的度量不是采用算法执行的绝对时间来计算的,因为一个算法在不同的机器上执行所花的时间不一样,在不同时刻也会由于计算机资源占用情况的不同,使得算法在同一台计算机上执行的时间也不一样,所以对于算法的时间复杂性,采用算法执行过程中其基本操作的执行次数,称为计算量来度量。,算法中基本操作的执行次数一般是与问题规模有关的,对于结点个数为n的数据处理问题,用T(n)表示算法基本操作的执行次数。,平均情况和最坏情况,Best Case Running Time: 同样的输入规模,不同的数据分布情况下,最快情况的运行时间。 Worst Case Running Time:同样的输入规模,不同
17、的数据分布情况下,最慢或运行步数最多时的运行时间。 Average Case Running Time:同样的输入规模,不同的数据分布情况下,平均所需的运行时间,通常指概率平均或期望值 。,评价一个算法的一般作法: (1)合理地选择一个或几个操作作为“标准操作”。 (2)计算量=给定输入下执行标准操作的次数。事实:一个算法的计算量通常依赖于问题的规模。,为了便于讨论,我们把问题规模假定为n,则算法在问题规模(Size)为n的输入下的计算量为T(n)。,定义:设f(n)与g(n)是定义在正整数集合上的两个函数,如果存在两个正常数c和n0,对于所有的nn0,有f(n) c.g(n) 则记作 f(n
18、)=O(g(n) 。也就是说对几乎所有的n值,函数f(n)以函数g(n)为上界。,渐近记号(一),f (n)=O(g(n)表明,当 n 时, f (n)趋于无穷大的阶不大于(即小于等于) g(n)趋于无穷大的阶.,例1:证明n2/2+3为O(n2),渐近记号(二), 大 记号: 定义: f (n)=(g(n) 意味着存在正常数 C 和 n0 ,使得当 n n0 , 均有 0 C g(n) f (n) 成立。 f (n)= (g(n)表明,当 n 时, f (n)趋于无穷大的阶不小于 g(n) 趋于无穷大的阶.,渐近记号(三), 大 记号: 定义: f (n)=(g(n) 意味着存在正常数C1,
19、 C2和n0使得当nn0 , 均有 0C1g(n)f (n)C2g(n)成立。 f (n)=(g(n)表明,当 n 时, f (n) 和g(n)趋于无穷大的阶是相同的。,例2:求两个n阶方阵的乘积C=A*Bfor(i=0;in;+i)for(j=0;jn;+j) cij=0;for(k=0;kn;+k)cij+=aik*bkj;,n+1,n(n+1),n2,n2(n+1),n3,一般情况下,算法中基本操作重复执行的次数是问题规模n的某个函数,当n趋向无穷大时,我们把时间复杂度T(n)=O(f(n)的数量级(阶)称为算法的渐近时间复杂度。,上述n阶矩阵相乘算法的时间复杂度T()为算法中所有语句的
20、频度之和: T(n)=2n3+3n2+2n+1 按照O记法,当n趋向无穷大时有: limT(n)/n3=lim(2n3+3n2+2n+1)/n3=2 这表明,当n充分大时,T(n)和n3之比是一个不等于0的常数,即T(n)和n3是同阶的,所以: T(n)=O( n3 ),频度:是指该语句重复执行的次数。,n ,n ,例3: +x;s=0; 将x自增看成是基本操作,则语句频度为,即时间复杂度为(1)如果将s=0也看成是基本操作,则语句频度为,其时间复杂度仍为(1),即常量阶。,例4:for(i=1;i=n;+i) +x;s+=x;语句频度为:2n 其时间复杂度为:O(n)即时间复杂度为线性阶。,
21、例5 for(i=1;i=n;+i)for(j=1;j=n;+j) +x;s+=x;语句频度为:2n2 其时间复杂度为:O(n2)即时间复杂度为平方阶。,例6 for(i=2;i=n;+i) for(j=2;j=i-1;+j) +x;aij=x; ,定理:若A(n)=a m n m +a m-1 n m-1 +a1n+a0 是一个m次多项式,则A(n)=O(nm )证略。,语句频度为:1+2+3+n-2=(1+n-2) (n-2)/2=(n-1)(n-2)/2=n2-3n+2时间复杂度为O(n2)即此算法的时间复杂度为平方阶.,一个算法时间为O(1)的算法,它的基本运算执行的次数是固定的。因此
22、,总的时间由一个常数(即零次多项式)来限界。而一个时间为O(n2)的算法则由一个二次多项式来限界。,以下六种计算算法时间的多项式是最常用的。其关系为:O(1)O(logn)O(n)O(nlogn)O(n2)O(n3)指数时间的关系为:O(2n)O(n!)O(nn)当n取得很大时,指数时间算法和多项式时间算法在所需时间上非常悬殊。因此,只要有人能将现有指数时间算法中的任何一个算法化简为多项式时间算法,那就取得了一个伟大的成就。,下面的表格给出了一些具体函数的O()的表示,如图所示。,有的情况下,算法中基本操作重复执行的次数还随问题的输入数据集不同而不同。例如: void bubble-sort(
23、int a,int n)for(i=n-1,change=1;i1 最好情况:0次 (原有数据有序时),最坏情况:1+2+3+n-1=n(n-1)/2平均时间复杂度为:O(n2),算法的时间复杂性不仅和问题的规模大小有关,还与问题数据的初始状态有关。这样就有了算法在最好、最坏以及在平均状态下的时间复杂性的概念。 算法在最好情况下的时间复杂性是指算法计算量的最小值。 算法在最坏情况下的时间复杂性是指算法计算量的最大值。,算法的平均情况下的时间复杂性是指算法在所有可 能的情况下的计算量经过加权计算出的平均值。,本书在对算法进行分析时,会用到如下两个记号: x:表示不大于x的最大整数; x:表示不小
24、于x的最小整数。,算法的存储空间需求 空间复杂度:算法所需存储空间的度量,记作:S(n)=O(f(n) 其中n为问题的规模(或大小),空间复杂度,Space complexity (空间复杂度): The amount of computer memory a program needs to run to completion. Why to be interested in it?To specify the amount of memory to be allocated to a program.To know in advance whether or not sufficient
25、memory is available to run a program.To be useful to choose a suitable solution to a question.To estimate the size of the largest problem that a program can solve,习题1:1.1 什么是数据结构? 1.2 数据结构涉及哪几个方面? 1.3 两个数据结构的逻辑结构和存储结构都相同,但是它们的运算集合中有一个运算的定义不一样,它们是否可以认作是同一个数据结构?为什么? 1.4 线性结构的特点是什么?非线性结构的特点是什么? 1.5 数据结
26、构的存储方式有哪几种?,1.6 算法有哪些特点?它和程序的主要区别是什么? 1.7 抽象数据类型是什么?它有什么特点? 1.8 算法的时间复杂度指的是什么?如何表示? 1.9 算法的空间复杂度指的是什么?如何表示? 1.10 对于下面的程序段,分析带下划线的语句的执行次数,并给出它们的时间复杂度T(n)。 (1)i+; (2)for(i=0;in;i+)if (aix)x=ai; (3)for(i=0;in;i+)for(j=0;jn;j+)printf(“%d“,i+j);,(4)for (i=1;iaj+1) k=j;t=ak; ak=ai; ai=t; (5)for(i=0;in;i+)for(j=0;jn;j+)+x;s=s+x;,