1、第八章 排序技术,本章的基本内容是:排序的基本概念 插入排序 交换排序 选择排序 归并排序,概 述,排序:给定一组记录的集合r1, r2, , rn,其相应的关键码分别为k1, k2, , kn,排序是将这些记录排列成顺序为rs1, rs2, , rsn的一个序列,使得相应的关键码满足ks1ks2ksn(称为升序)或ks1ks2ksn(称为降序)。 正序:待排序序列中的记录已按关键码排好序。 逆序(反序):待排序序列中记录的排列顺序与排好序的顺序正好相反。,排序的基本概念,排序算法的稳定性:假定在待排序的记录集中,存在多个具有相同键值的记录,若经过排序,这些记录的相对次序仍然保持不变,即在原序
2、列中,ki=kj且ri在rj之前,而在排序后的序列中,ri仍在rj之前,则称这种排序算法是稳定的;否则称为不稳定的。,概 述,排序的基本概念,概 述,排序的基本概念,单键排序:根据一个关键码进行的排序; 多键排序:根据多个关键码进行的排序。,按学号排序单键排序 按成绩(高数英语思想品德)排序多键排序,概 述,排序的基本概念,设关键码分别为k1, k2, , km,多键排序有两种方法: 依次对记录进行m次排序,第一次按k1排序,第二次按k2排序,依此类推。这种方法要求各趟排序所用的算法是稳定的; 将关键码k1, k2, , km分别视为字符串依次首尾连接在一起,形成一个新的字符串,然后,对记录序
3、列按新形成的字符串排序。,排序的分类 1. 内排序:在排序的整个过程中,待排序的所有记录全部被放置在内存中 2. 外排序:由于待排序的记录个数太多,不能同时放置在内存,而需要将一部分记录放置在内存,另一部分记录放置在外存上,整个排序过程需要在内外存之间多次交换数据才能得到排序的结果。,概 述,排序的基本概念,排序的分类 1. 基于比较:基本操作关键码的比较和记录的移动,其最差时间下限已经被证明为(nlog2n)。 2. 不基于比较:根据关键码的分布特征。,概 述,排序的基本概念,基于比较的内排序 1. 插入排序 2. 交换排序 3. 选择排序 4. 归并排序,1. 基本操作。内排序在排序过程中
4、的基本操作: 比较:关键码之间的比较; 移动:记录从一个位置移动到另一个位置。 2. 辅助存储空间。 辅助存储空间是指在数据规模一定的条件下,除了存放待排序记录占用的存储空间之外,执行算法所需要的其他存储空间。 3.算法本身的复杂程度。,排序算法的性能,概 述,排序算法的存储结构,概 述,从操作角度看,排序是线性结构的一种操作,待排序记录可以用顺序存储结构或链接存储结构存储。,假定2:将待排序的记录序列排序为升序序列。,int rn+1; /待排序记录存储在r1rn,r0留做他用,假定1:采用顺序存储结构,关键码为整型,且记录只有关键码一个数据项。,插入排序,插入排序的主要操作是插入,其基本思
5、想是:每次将一个待排序的记录按其关键码的大小插入到一个已经排好序的有序序列中,直到全部记录排好序为止。,基本思想:在插入第 i(i1)个记录时,前面的 i-1个记录已经排好序。,直接插入排序,插入排序,基本思想:在插入第 i(i1)个记录时,前面的 i-1个记录已经排好序。,(1)如何构造初始的有序序列? (2)如何查找待插入记录的插入位置?,直接插入排序,插入排序,需解决的关键问题?,直接插入排序过程示例,r 0 1 2 3 4 5 6,21,18,25,22,10,25*,21,插入排序,22,10,25,18,18,r0的作用?,暂存单元,监视哨,解决方法: 将第1个记录看成是初始有序表
6、,然后从第2个记录起依次插入到这个有序表中,直到将第n个记录插入。,插入排序,关键问题(1)如何构造初始的有序序列?,算法描述: for (i=2; i=n; i+) 插入第i个记录,即第i趟直接插入排序; ,关键问题(2)如何查找待插入记录的插入位置?,解决方法: 在i-1个记录的有序区r1 ri-1中插入记录ri,首先顺序查找ri的正确插入位置,然后将ri插入到相应位置。,r0有两个作用: 1. 进入循环之前暂存了ri的值,使得不致于因记录的后移而丢失ri的内容; 2. 在查找插入位置的循环中充当哨兵。,插入排序,算法描述: r0=ri; j=i-1; while (r0rj) rj+1=
7、rj; j-; ,void insertSort (int r , int n) for (i=2; i=n; i+) r0=ri; j=i-1;while (r0rj) rj+1=rj; j=j-1; rj+1=r0; ,直接插入排序算法,插入排序,直接插入排序算法性能分析,最好情况下(正序):,插入排序,时间复杂度为O(n)。,直接插入排序算法性能分析,插入排序,最好情况下(正序):,最坏情况下(逆序或反序):,时间复杂度为O(n2)。,时间复杂度为O(n)。,平均情况下(随机排列):,直接插入排序算法性能分析,插入排序,时间复杂度为O(n2)。,空间性能:需要一个记录的辅助空间。直接插入
8、排序算法是一种稳定的排序算法。,直接插入排序算法性能分析,插入排序,直接插入排序算法简单、容易实现,适用于待排序记录基本有序或待排序记录较小时。 当待排序的记录个数较多时,大量的比较和移动操作使直接插入排序算法的效率降低。,插入排序,如何改进直接插入排序?,注意到,在插入第 i(i1)个记录时,前面的 i-1 个记录已经排好序,则在寻找插入位置时,可以用折半查找来代替顺序查找,从而较少比较次数。,请同学们写出这个改进的直接插入排序算法,并分析时间性能。,希尔排序,改进的着眼点: (1)若待排序记录按关键码基本有序时,直接插入排序的效率可以大大提高; (2)由于直接插入排序算法简单,则在待排序记
9、录数量n较小时效率也很高。,插入排序,(1)应如何分割待排序记录,才能保证整个序列逐步向基本有序发展? (2)子序列内如何进行直接插入排序?,插入排序,需解决的关键问题?,基本思想:将整个待排序记录分割成若干个子序列,在子序列内分别进行直接插入排序,待整个序列中的记录基本有序时,对全体记录进行直接插入排序。,希尔排序,基本有序:接近正序,例如1, 2, 8, 4, 5, 6, 7, 3, 9; 局部有序:部分有序,例如6, 7, 8, 9, 1, 2, 3, 4, 5。 局部有序不能提高直接插入排序算法的时间性能。,插入排序,希尔排序,分割待排序记录的目的?,1. 减少待排序记录个数; 2.
10、使整个序列向基本有序发展。,子序列的构成不能是简单地“逐段分割”,而是将相距某个“增量”的记录组成一个子序列。,启示?,希尔插入排序过程示例,1 2 3 4 5 6 7 8 9,40,21,25,49,25*,16,初始序列,插入排序,30,08,13,解决方法: 将相隔某个“增量”的记录组成一个子序列。 增量应如何取? 希尔最早提出的方法是d1=n/2,di+1=di/2。,关键问题(1)应如何分割待排序记录?,插入排序,算法描述: for (d=n/2; d=1; d=d/2) 以d为增量,进行组内直接插入排序; ,解决方法: 在插入记录ri时,自ri-d起往前跳跃式(跳跃幅度为d)搜索待
11、插入位置,并且r0只是暂存单元,不是哨兵。当搜索位置0,表示插入位置已找到。 在搜索过程中,记录后移也是跳跃d个位置。 在整个序列中,前d个记录分别是d个子序列中的第一个记录,所以从第d+1个记录开始进行插入。,插入排序,关键问题(2)子序列内如何进行直接插入排序?,算法描述:,for (i=d+1; i0 ,插入排序,关键问题(2)子序列内如何进行直接插入排序?,希尔排序算法的时间性能,希尔排序算法的时间性能是所取增量的函数,而到目前为止尚未有人求得一种最好的增量序列。 研究表明,希尔排序的时间性能在O(n2)和O(nlog2n)之间。当n在某个特定范围内,希尔排序所需的比较次数和记录的移动
12、次数约为O(n1.3 ) 。,插入排序,希尔排序开始时增量较大,每个子序列中的记录个数较少,从而排序速度较快;当增量较小时,虽然每个子序列中记录个数较多,但整个序列已基本有序,排序速度也较快。,课堂练习:,1. 欲将序列(Q, H, C, Y, P, A, M, S, R, D, F, X)中的关键码按字母升序重排,则初始步长为4的希尔排序一趟的结果是? 答:原始序列: Q, H, C, Y, P, A, M, S, R, D, F, Xshell一趟后:,2. 以关键字序列(256,301,751,129,937,863,742,694,076,438)为例,分别写出执行以下算法的各趟排序结
13、束时,关键字序列的状态,并说明这些排序方法中,哪些易于在链表(包括各种单、双、循环链表)上实现? 直接插入排序 希尔排序(取dk=5,3,1),答:显然,直接插入排序方法易于在链表上实现;但希尔排序方法因为是按增量选择记录,不易于在链表上实现。,交换排序的主要操作是交换,其主要思想是:在待排序列中选两个记录,将它们的关键码相比较,如果反序(即排列顺序与排序后的次序正好相反),则交换它们的存储位置。,交换排序,反序则 交换,起泡排序,基本思想:两两比较相邻记录的关键码,如果反序则交换,直到没有反序的记录为止。,交换排序,05,98,12,69,38,53,81,起泡排序过程示例,交换排序,交换排
14、序,Flag=1; for(i=1;irj+1)flag=1;ri-rj+1 因为排序的过程中,各元素不断接近自己的位置,如果一趟比较下来没有进行过交换,就说明序列有序,因此要在排序过程中设置一个标志flag判断元素是否进行过交换。从而减少不必要的比较。,起泡排序的时间性能分析,最好情况(正序):,交换排序,时间复杂度为O(n)。,最坏情况(反序):,起泡排序的时间性能分析,最好情况(正序):,交换排序,时间复杂度为O(n);,时间复杂度为O(n2)。,平均情况:时间复杂度为O(n2)。,快速排序的基本思想,首先选一个轴值(即比较的基准),通过一趟排序将待排序记录分割成独立的两部分,前一部分记
15、录的关键码均小于或等于轴值,后一部分记录的关键码均大于或等于轴值,然后分别对这两部分重复上述方法,直到整个序列有序。,交换排序,如何选择轴值? 如何实现分割(称一次划分)? 如何处理分割得到的两个待排序子序列? 如何判别快速排序的结束?,需解决的关键问题?,选择轴值的方法: 1.使用第一个记录的关键码; 2.选取序列中间记录的关键码; 3.比较序列中第一个记录、最后一个记录和中间记录的关键码,取关键码居中的作为轴值并调换到第一个记录的位置; 4.随机选取轴值。,交换排序,关键问题:如何选择轴值?,选取不同轴值的后果: 决定两个子序列的长度,子序列的长度最好相等。,13,65,27,50,38,
16、49,55,交换排序,关键问题:如何实现一次划分?,解决方法: 设待划分的序列是rs rt,设参数i,j分别指向子序列左、右两端的下标s和t,令rs为轴值, (1)j从后向前扫描,直到rjri,将rj移动到ri的位置,使关键码小(同轴值相比)的记录移动到前面去; (2)i从前向后扫描,直到rirj,将ri移动到rj的位置,使关键码大(同轴值比较)的记录移动到后面去; (3)重复上述过程,直到i=j。,交换排序,关键问题:如何实现一次划分?,交换排序,关键问题:如何实现一次划分?,算法描述:,int Partition(int r , int first, int end) i=first; j
17、=end; /初始化while (ij) while (ij /i为轴值记录的最终位置 ,解决方法: 对分割得到的两个子序列递归地执行快速排序。,交换排序,关键问题:如何处理分割得到的两个待排序子序列?,38,算法描述:,交换排序,关键问题:如何处理分割得到的两个待排序子序列?,void QuickSort (int r , int first, int end ) pivotpos = Partition (r, first, end ); /一次划分 QuickSort (r, first, pivotpos-1); /对前一个子序列进行快速排序QuickSort (r, pivotpos
18、+1, end ); /对后一个子序列进行快速排序 ,解决方法: 若待排序列中只有一个记录,显然已有序,否则进行一次划分后,再分别对分割所得的两个子序列进行快速排序(即递归处理)。,交换排序,关键问题:如何判别快速排序的结束?,void QuickSort (int r , int first, int end ) /在序列 firstend中递归地进行快速排序if (first end) pivotpos = Partition (r, first, end ); QuickSort (r, first, pivotpos-1);QuickSort (r, pivotpos+1, end )
19、; ,算法描述:,交换排序,关键问题:如何判别快速排序的结束?,交换排序,例:38, 27, 55, 50, 13, 49, 65的快速排序递归树如下:,快速排序的递归执行过程可以用递归树描述。,快速排序的时间性能分析,快速排序的时间性能分析,交换排序,快速排序的时间性能,快速排序递归的深度,每次划分轴值的选取,最好情况: 每一次划分对一个记录定位后,该记录的左侧子表与右侧子表的长度相同,为O(nlog2n)。,快速排序的时间性能分析,交换排序,T(n)2T(n/2)n2(2T(n/4)n/2)n4T(n/4)2n4(2T(n/8)n/4)2n8T(n/8)3n nT(1)nlog2nO(nl
20、og2n),最坏情况: 每次划分只得到一个比上一次划分少一个记录的子序列(另一个子序列为空),为 O(n2)。,最好情况: 每一次划分对一个记录定位后,该记录的左侧子表与右侧子表的长度相同,为O(nlog2n)。,快速排序的时间性能分析,交换排序,平均情况:为O(nlog2n)。,选择排序的主要操作是选择,其主要思想是:每趟排序在当前待排序序列中选出关键码最小的记录,添加到有序序列中。,选择排序,简单选择排序,基本思想:第i 趟在n-i+1(i=1,2,n-1)个记录中选取关键码最小的记录作为有序序列中的第i个记录。,选择排序,需解决的关键问题?,如何在待排序序列中选出关键码最小的记录? 如何
21、确定待排序序列中关键码最小的记录在有序序列中的位置?,简单选择排序示例,i = 2,最小者 08 交换21,08,最小者 16 交换25,16,最小者 21 交换49,21,21,28,i = 1,25,16,49,08,08,i = 3,21,选择排序,16,i = 4,最小者 25 交换25,28,i = 5,最小者 28 不交换,选择排序,简单选择排序示例,25,28,无序区只有 一个记录,解决方法: 设置一个整型变量index,用于记录在一趟比较的过程中关键码最小的记录位置。,选择排序,关键问题:如何在无序区中选出关键码最小的记录?,21,28,25,16,49,08,index,in
22、dex,08,算法描述: index=i; for (j=i+1; j=n; j+) if (rjrindex) index=j;,解决方法: 设置一个整型变量index,用于记录在一趟比较的过程中关键码最小的记录位置。,关键问题:如何在无序区中选出关键码最小的记录?,解决方法: 第i趟简单选择排序的待排序区间是ri rn,则ri是无序区第一个记录,所以,将index所记载的关键码最小的记录与ri交换。,选择排序,关键问题:如何确定最小记录的最终位置?,算法描述:if (index!=i) ririndex;,void selectSort ( int r , int n) for ( i=1
23、; irindex; ,简单选择排序算法,选择排序,简单选择排序算法的性能分析,移动次数: 最好情况(正序):0次,选择排序,1,2,3,4,最坏情况:3(n-1)次,简单选择排序算法的性能分析,移动次数: 最好情况(正序):0次,选择排序,空间性能:需一个辅助空间。 稳定性:是一种稳定的排序算法。,1,2,3,4,比较次数:,简单选择排序的时间复杂度为O(n2)。,堆的定义,堆是具有下列性质的完全二叉树:每个结点的值都小于或等于其左右孩子结点的值(称为小根堆),或每个结点的值都大于或等于其左右孩子结点的值(称为大根堆)。,选择排序,1. 小根堆的根结点是所有结点的最小者。 2. 较小结点靠近
24、根结点,但不绝对。,堆的定义,堆是具有下列性质的完全二叉树:每个结点的值都小于或等于其左右孩子结点的值(称为小根堆),或每个结点的值都大于或等于其左右孩子结点的值(称为大根堆)。,选择排序,1. 大根堆的根结点是所有结点的最大者。 2. 较大结点靠近根结点,但不绝对。,堆和序列的关系,选择排序,将堆用顺序存储结构来存储,则堆对应一组序列。,基本思想:首先将待排序的记录序列构造成一个堆,此时,选出了堆中所有记录的最大者,然后将它从堆中移走,并将剩余的记录再调整成堆,这样又找出了次小的记录,以此类推,直到堆中只有一个记录。,选择排序,堆排序,需解决的关键问题?,如何由一个无序序列建成一个堆(即初始
25、建堆)? 如何处理堆顶记录? 如何调整剩余记录,成为一个新堆(即重建堆)?,堆调整,堆调整:在一棵完全二叉树中,根结点的左右子树均是堆,如何调整根结点,使整个完全二叉树成为一个堆?,选择排序,void sift ( int r , int k, int m ) /要筛选结点的编号为k,堆中最后一个结点的编号为m i=k; j=2*i; while (jrj) break; else ri rj; i=j; j=2*i; ,选择排序,堆调整算法描述:,选择排序,关键问题:如何由一个无序序列建成一个堆?,算法描述: for (i=n/2; i=1; i-)sift(r, i, n) ;,选择排序,
26、关键问题:如何由一个无序序列建成一个堆?,最后一个结点(叶子)的序号是n, 则最后一个分支结点即为结点n的双亲, 其序号是n/2。,选择排序,关键问题:如何处理堆顶记录?,对 应,对 应,算法描述: r1rn-i+1;,选择排序,关键问题:如何处理堆顶记录?,解决方法: 第 i 次处理堆顶是将堆顶记录r1与序列中第n-i+1个记录rn-i+1交换。,选择排序,关键问题:如何调整剩余记录,成为一个新堆?,解决方法: 第 i 次调整剩余记录,此时,剩余记录有n-i个,调整根结点至第n-i个记录。,选择排序,关键问题:如何调整剩余记录,成为一个新堆?,算法描述: sift(r, 1, n-i);,堆
27、排序算法,void HeapSort ( int r, int n) for (i=n/2; i=1; i-) /初建堆sift(r, i, n) ; for (i=1; in; i+ )r1rn-i+1; /移走堆顶sift(r, 1, n-i); /重建堆 ,选择排序,堆排序算法的性能分析,第1个for循环是初始建堆,需要O(n)时间; 第2个for循环是输出堆顶重建堆,共需要取n-1次堆顶记录,第 i 次取堆顶记录重建堆需要O(log2i)时间,需要O(nlog2n)时间; 因此整个时间复杂度为O(nlog2n),这是堆排序的最好、最坏和平均的时间代价。,选择排序,归并排序,归并排序的主
28、要操作是归并,其主要思想是:将若干有序序列逐步归并,最终得到一个有序序列。,归并排序,归并:将两个或两个以上的有序序列合并成一个有序序列的过程。,基本思想:将一个具有n个待排序记录的序列看成是n个长度为1的有序序列,然后进行两两归并,得到n/2个长度为2的有序序列,再进行两两归并,得到n/4个长度为4的有序序列,直至得到一个长度为n的有序序列为止。,二路归并排序,归并排序,需解决的关键问题?,如何将两个有序序列合成一个有序序列? 怎样完成一趟归并? 如何控制二路归并的结束?,60 20 31 5 44 55 65,void Merge (int r , int r1 , int s, int
29、m, int t ) i=s; j=m+1; k=s;while (i=m /后一个子序列 ,归并排序,关键问题:如何将两个有序序列合成一个有序序列?,算法描述:,void MergePass (int r , int r1 , int n, int h) i=1;while (in-2h+1) /情况1Merge (r, r1, i, i+h-1, i+2*h-1);i+=2*h;if (in-h+1) Merge (r, r1, i, i+h-1, n); /情况2else for (k=i; k=n; k+) /情况3r1k=rk; ,一趟归并排序算法,归并排序,算法描述: void M
30、ergeSort (int r , int r1 , int n ) h=1;while (hn)MergePass (r, r1, n, h);h=2*h;MergePass (r1, r, n, h);h=2*h; ,归并排序,关键问题:如何控制二路归并的结束?,二路归并排序算法的性能分析,归并排序,各种排序方法的比较,对排序算法应该从以下几个方面综合考虑: 时间复杂性; 空间复杂性; 稳定性; 算法简单性; 待排序记录个数n的大小; 记录本身信息量的大小; 关键码的分布情况。,时间复杂度比较,各种排序方法的比较,空间复杂度比较,各种排序方法的比较,稳定性比较,所有排序方法可分为两类, (
31、1)一类是稳定的,包括直接插入排序、起泡排序、直接选择排序和归并排序; (2)另一类是不稳定的,包括希尔排序、快速排序和堆排序。,各种排序方法的比较,算法简单性比较,从算法简单性看, (1)一类是简单算法,包括直接插入排序、直接选择排序和起泡排序, (2)另一类是改进后的算法,包括希尔排序、堆排序、快速排序和归并排序,这些算法都很复杂。,各种排序方法的比较,待排序的记录个数比较,从待排序的记录个数n的大小看,n越小,采用简单排序方法越合适,n越大,采用改进的排序方法越合适。因为n越小,O(n2)同O(nlog2n)的差距越小,并且输入和调试简单算法比输入和调试改进算法要少用许多时间。,各种排序方法的比较,记录本身信息量比较,记录本身信息量越大,移动记录所花费的时间就越多,所以对记录的移动次数较多的算法不利。,各种排序方法的比较,关键码的分布情况比较,当待排序记录按关键码有序时,插入排序和起泡排序能达到O(n)的时间复杂度;对于快速排序而言,这是最坏的情况,此时的时间性能蜕化为O(n2);选择排序、堆排序和归并排序的时间性能不随记录序列中关键字的分布而改变。,各种排序方法的比较,