1、数据结构,教材: 数据结构(C语言版) 严蔚敏 吴伟民 编著 清华大学出版社,计算机科学与技术学院,开设本课程的背景: 数据结构是计算机相关专业的一门重要的专业基础课。它主要研究计算机加工对象的逻辑结构、在计算机中的存储结构以及实现各种基本操作的算法。它是学习操作系统、编译原理、数据库原理等计算机专业核心课程的基础,掌握好这门课程的内容,是学习计算机其他相关课程的必备条件。,本课程讲述的主要内容: 分别讲述数据结构的基本概念、线性表、栈和队列、串、数组和广义表、树和二叉树、图、查找、排序等内容。学习本课程的基本方法:,上课认真听讲;仔细阅读教材中的大量例题,从而体会并最终掌握数据结构中的基本概
2、念;独立完成每个章节的练习题和作业题。,1.1 什么是数据结构,第一章 绪论,1.3 算法和算法分析,1.2 基本概念和术语,学习提要: 1. 熟悉各名词术语的含义,掌握基本概念。 2.了解抽象数据类型的定义、表示和实现方法。 3. 理解算法五个要素的确切含义,掌握估算算法时间复杂度的方法。 重难点内容: 数据的逻辑结构、数据存储结构、时间复杂度的估算方法,1.1 什么是数据结构,程序设计: 为计算机处理问题编制 一组指令集。 算法: 处理问题的策略。数据结构: 问题的数学模型。,程序 = 算法 + 数据结构,数值计算的程序设计问题:例如: 结构静力分析计算 线性代数方程组 预报人口增长情况
3、微分方程,非数值计算的程序设计问题:,算法: ?模型:?,基本操作是“比较两个数的大小”,取决于整数值的范围,例1:求一组(n个)整数中的最大值。,例2 书目自动检索系统,书目文件,算法:需要检索的书目?如何检索?用户界面?模型:?,例3 人机对奕问题,算法:对奕的规则和策略模型:?,例4 教学计划编排问题,算法:如何确定课程的次序关系?模型:?,概括地说:,数据结构是一门讨论“描述现实世界实体的数学模型(非数值计算)及其上的操作在计算机中如何表示和实现”的学科。,1.2 基本概念和术语,一、数据与数据结构,二、数据类型,三、抽象数据类型,数据(data):所有能被输入到计算机中,且被计算机处
4、理的符号的集合 ,是计算机操作的对象的总称。数据元素(data element):是数据(集合)中的一个“个体”,是数据的基本单位,由若干个数据项组成,也称结点、元素、顶点或记录。,一、数据与数据结构,数据项:,是数据结构中讨论的最小单位。,例如:,描述一个学生基本信息的数据元素可以是,称之为组合项,数据结构(data structure):是指互相之间存在着一种或多种关系的数据元素的集合。或者说,数据结构是带结构的数据元素的集合。,例:一个含12位数的十进制数可以用三个4位的十进制数表示 3214, 6587, 9345 a1(3214), a2(6587), a3(9345)在a1、a2、
5、a3 之间存在“次序”关系: a1,a2、a2,a3,3214,6587,9345 a1 a2 a3,6587,3214,9345 a2 a1 a3,又例,在2行3列的二维数组a1, a2, a3, a4, a5, a6,行的次序关系:列的次序关系:,row = ,col = ,a1 a3 a5 a2 a4 a6,a1 a2 a3a4 a5 a6,再例,在一维数组 a1, a2, a3, a4, a5, a6 的数据元素之间存在如下的次序关系:,| i=1, 2, 3, 4, 5,可见,不同的“关系”构成不同的“结构”。,集合结构:数据元素间 “同属于一个集合”,数据的逻辑结构可归结为以下四类
6、:,线性结构:一个对一个,树形结构:一个对多个,图状结构:多个对多个,数据结构的形式定义为:,数据结构是一个二元组,Data_Structure = (D, S),其中:D 是数据元素的有限集, S 是 D上关系的有限集。,例:在计算机科学中,复数可取如下定义 Complex=(C,R) 其中,C是含两个实数集合c1,c2; R=P,P是定义在集合C上的一种关系 。,数据的逻辑结构:只抽象反映数据元素的逻辑关系。,数据的存储结构:逻辑结构在存储器中的映象。,“数据元素”的映象 ?,“关系”的映象 ?,数据元素的映象方法:,用二进制位(bit)的位串表示数据元素。,(321)10 = (501)
7、8 = (101000001)2,A = (101)8 = (001000001)2,关系的映象方法:,(表示x, y的方法),1、顺序映象,以相对的存储位置表示后继关系。,例如:令 y 的存储位置和 x 的存储位置之间差一个常量 C。,而 C 是一个隐含值,整个存储结构中只含数据元素本身的信息,x y,2、链式映象,以附加信息(指针)表示后继关系。,需要用一个和 x 在一起的附加信息指示 y 的存储位置。,y x,例如:复数z1=3.0-2.3i,z2=-0.7+4.8i的存储结构。,顺序存储结构,链式存储结构,二、数据类型,在用高级程序语言编写的程序中,必须对程序中出现的每个变量、常量或表
8、达式,明确说明它们所属的数据类型。,例:C语言中,提供int, char, float等基本数据类型,数组、结构体、共用体、枚举等构造数据类型指针、空(void)类型等。用户也可用typedef 自己定义数据类型,typedef struct int num; char name20; float score; STUDENT;STUDENT stu1,stu2, *p;,数据类型 是一个 值的集合和定义在此集合上的 一组操作的总称。,不同类型的变量,其所能取的值的范围不同,所能进行的操作不同。,三、抽象数据类型 (Abstract Data Type 简称ADT),ADT定义: 指一个数学模
9、型以及定义在该模型上的一组操作。 “抽象”的意义在于数据类型的数学抽象特性。,例如:矩阵 +(求转置、加、乘、求逆、求特征值) 构成一个矩阵的抽象数据类型。,ADT的描述方法:,抽象数据类型可用三元组 (D,S,P)表示。 其中:D 是数据对象; S 是 D 上的关系集; P 是对 D 的基本操作集。,ADT 抽象数据类型名 数据对象:数据对象的定义 数据关系:数据关系的定义 基本操作:基本操作的定义 ADT 抽象数据类型名,其中基本操作的定义格式为:,基本操作名(参数表) 初始条件:初始条件描述 操作结果:操作结果描述,赋值参数:只为操作提供输入值。引用参数:以&打头,除可提供输入值外,还将
10、返回操作结果。,初始条件:描述了操作执行之前数据结构和参数应满足的条件,若不满足,则操作失败,并返回相应出错信息。,操作结果:说明了操作正常完成之后,数据结构的变化状况和应返回的结果。若初始条件为空,则省略之。,例如,抽象数据类型复数的定义:,数据对象: De1,e2e1,e2RealSet 数据关系: R1 | e1是复数的实数部分 | e2 是复数的虚数部分 ,ADT Complex ,基本操作:,AssignComplex( &Z, v1, v2 ) 操作结果:构造复数 Z,其实部和虚部 分别被赋以参数 v1 和 v2 的值。,DestroyComplex( &Z) 操作结果:复数Z被销
11、毁。,GetReal( Z, &realPart ) 初始条件:复数已存在。 操作结果:用realPart返回复数Z的实部值。,GetImag( Z, &ImagPart ) 初始条件:复数已存在。 操作结果:用ImagPart返回复数Z的虚部值。,Add( z1,z2, &sum ) 初始条件:z1, z2是复数。 操作结果:用sum返回两个复数z1, z2 的 和值。, ADT Complex,假设:z1和z2是上述定义的复数,则 Add(z1, z2, z3) 操作的结果,z3 = z1 + z2,即为用户所求的结果,ADT 有两个重要特征:,数据抽象:,用ADT描述程序处理的实体时,强
12、调的是其本质的特征、其所能完成的功能以及它和外部用户的接口(即外界使用它的方法)。,数据封装:,将实体的外部特性和其内部实现细节分离,并且对外部用户隐藏其内部实现细节。,ADT的表示和实现:,抽象数据类型需要通过固有数据类型(高级编程语言中已实现的数据类型)来实现。,例如,对以上定义的复数。,typedef struct float realpart; float imagpart;complex;,/ -存储结构的定义,/ -基本操作的函数原型说明,void Assign( complex &Z, float realval, float imagval ); / 构造复数 Z,其实部和虚部
13、分别被赋以 /参数 realval 和 imagval 的值,float GetReal( complex Z ); / 返回复数 Z 的实部值,float Getimag( complex Z ); / 返回复数 Z 的虚部值,void add( complex z1, complex z2, complex &sum ); / 以 sum 返回两个复数 z1, z2 的和,/ -基本操作的实现,void add( complex z1, complex z2, complex , 其它省略 ,一、算法的定义,二、算法设计的原则,三、算法效率的衡量方法和准则,四、算法的存储空间需求,1.3
14、算法和算法分析,算法是对特定问题求解步骤的描述,是指令的有限序列。,1.有穷性 2.确定性 3.可行性4.有输入 5.有输出,一、算法的定义,一个算法必须满足以下五个重要特性:,1.有穷性:对于任意一组合法输入值,在执行有穷步骤之后一定能结束,即算法中的每个步骤都能在有限时间内完成。,2.确定性:对于每种情况下所应执行的操作,在算法中都有确切的规定,使算法的执行者或阅读者都能明确其含义及如何执行。并且在任何条件下,算法都只有一条执行路径。,3.可行性:算法中的所有操作都必须足够基本,都可以通过已经实现的基本操作运算有限次实现之。,4.有输入:有零个或多个输入,取自特定的对象集合。,5.有输出:
15、有一个或多个输出,是算法进行信息加工后得到的结果。,二、算法设计的原则,设计算法时,通常应考虑达到以下目标:,1正确性,2. 可读性,3健壮性,4高效率与低存储量需求,1.正确性:在合理的数据输入下,能在有限的运算时间内得到正确结果。,对算法是否“正确”的理解可以有以下四个层次: a程序中不含语法错误; b程序对于几组输入数据能够得出满足要求的结果; c程序对于精心选择的、典型、苛刻切带有刁难性的几组输入数据能够得出满足要求的结果; d程序对于一切合法的输入数据都能得出满足要求的结果;,2.可读性:易于人对算法的理解;另一方面,晦涩难读的程序易于隐藏较多错误而难以调试;,3.健壮性:当输入的数
16、据非法时,算法应当恰当地作出反映或进行相应处理,而不是产生莫名奇妙的输出结果。并且,处理出错的方法不应是中断程序的执行,而应是返回一个表示错误或错误性质的值,以便在更高的抽象层次上进行处理。,4.高效率与低存储量需求:,效率指的是算法执行时间。 存储量指的是算法执行过程中所需的最大存储空间。 两者都与问题的规模有关。,有两种衡量算法效率的方法: 1.事后统计法:利用计算机内记时功能,用一组或多组相同的统计数据区分。 2.事前分析估计法:求出算法的一个时间界限函数。,三、算法效率的衡量方法和准则,和算法执行时间相关的因素:,1算法选用的策略,2问题的规模,3编写程序的语言,4编译程序产生的机器代
17、码的质量,5计算机执行指令的速度,设解决一个问题的规模为n,基本操作被重复执行的次数是f(n)。 假如,随着问题规模 n 的增长,算法执行时间的增长率和 f(n) 的增长率相同,则可记作:,T (n) = O(f(n),称T (n) 为算法的渐近时间复杂度,简称时间复杂度。,算法 = 控制结构 + 原操作 (固有数据类型的操作),算法的执行时间 =原操作(i)的执行次数原操作(i)的执行时间,如何估算算法的时间复杂度?,从算法中选取一种对于所研究的问题来说是 基本操作 的原操作,以该基本操作 在算法中重复执行的次数 作为算法运行时间的衡量准则。,void mult(int a, int b,
18、int /for /mult,基本操作: 乘法操作,时间复杂度: O(n3),例1 两个矩阵相乘,例2 +x; s=0;,T(n)=(1),T(n)= O(n),(1)(log2n)(n)(n2)(n3)(2n),例3 for (i=1; i=n; +i) +x; s+=x;,例4 for( i=2; i=n; +i ) for( j=2; j=i-1; +j ) +x; ai,j=x; ,T(n)= O(n2), change = FALSE; / change 为元素进行交换标志 for (j=0; j aj+1) aj aj+1; change = TRUE ; / 一趟起泡,void bubble_sort(int -i) / bubble_sort,基本操作: 交换操作,时间复杂度: O(n2),例5 起泡排序,四、算法的存储空间需求,算法的空间复杂度:,表示随着问题规模 n 的增大,算法运行所需存储量的增长率与 g(n) 的增长率相同。,S(n) = O( g(n) ),算法的存储量包括: (1)输入数据所占空间; (2)程序本身所占空间; (3)辅助变量所占空间。,数据结构的三个方面:,