9关系查询处理与查询优化优化.ppt-道客多多

资源描述

1、第九章关系查询处理及查询优化,关系系统的查询处理关系系统的查询优化代数优化物理优化,9.1 关系数据库系统的查询处理,9.1.1 查询处理步骤,1. 查询分析,对查询语句进行扫描、词法分析和语法分析从查询语句中识别出语言符号进行语法检查和语法分析,2. 查询检查,根据数据字典对合法的查询语句进行语义检查根据数据字典中的用户权限和完整性约束定义对用户的存取权限进行检查检查通过后把SQL查询语句转换成等价的关系代数表达式 RDBMS一般都用查询树(语法分析树)来表示扩展的关系代数表达式把数据库对象的外部名称转换为内部表示,3. 查询优化(query optimization),查

2、询优化：选择一个高效执行的查询处理策略查询优化分类：代数优化：指关系代数表达式的优化物理优化：指存取路径和底层操作算法的选择查询优化方法选择的依据：基于规则(rule based) 基于代价(cost based) 基于语义(semantic based),4. 查询执行,依据优化器得到的执行策略生成查询计划代码生成器(code generator)生成执行查询计划的代码,9.1.2 实现查询操作的算法示例,例1Select * from student where ；考虑的几种情况： C1：无条件； C2：Sno200215121； C3：Sage20； C4：SdeptCS

3、 AND Sage20；,一、选择操作的实现,1. 简单的全表扫描方法对查询的基本表顺序扫描，逐一检查每个元组是否满足选择条件，把满足条件的元组作为结果输出适合小表，不适合大表2. 索引(或散列)扫描方法适合选择条件中的属性上有索引(例如B+树索引或Hash索引) 通过索引先找到满足条件的元组主码或元组指针，再通过元组指针直接在查询的基本表中找到元组,选择操作典型实现方法：,例1-C2 以C2为例，Sno200215121，并且Sno上有索引(或Sno是散列码) 使用索引(或散列)得到Sno为200215121 元组的指针通过元组指针在student表中检索到该学生,例1-C3 以C

4、3为例，Sage20，并且Sage 上有B+树索引使用B+树索引找到Sage20的索引项，以此为入口点在B+树的顺序集上得到Sage20的所有元组指针通过这些元组指针到student表中检索到所有年龄大于20的学生。,例1-C4 以C4为例，SdeptCS AND Sage20，如果Sdept和Sage上都有索引：算法一：分别用上面两种方法分别找到SdeptCS的一组元组指针和Sage20的另一组元组指针求这2组指针的交集到student表中检索, 得到计算机系年龄大于20的学生算法二：找到SdeptCS的一组元组指针，通过这些元组指针到student表中检索对得到的元组检查

5、另一些选择条件(如Sage20)是否满足把满足条件的元组作为结果输出。,二、连接操作的实现(等值连接或自然连接),例2 SELECT * FROM Student，SC WHERE Student.Sno=SC.Sno；,嵌套循环方法(nested loop) 对外层循环(Student)的每一个元组(s)，检索内层循环(SC)中的每一个元组(sc)检查这两个元组在连接属性(Sno)上是否相等如果满足连接条件，则串接后作为结果输出，直到外层循环表中的元组处理完为止,2. 排序-合并方法(sort-merge join 或merge join) 适合连接的诸表已经排好序的情况排序合并连接方

6、法的步骤：如果连接的表没有排好序，先对Student表和SC表按连接属性Sno排序取Student表中第一个Sno，依次扫描SC表中具有相同Sno的元组,排序-合并连接方法示意图,200215121 1 92 200215121 2 85 200215121 3 88 200215122 2 90 200215122 3 80 . . .,200215121 200215122 200215123 200215124 . . .,当扫描到Sno不相同的第一个SC元组时，返回Student表扫描它的下一个元组，再扫描SC表中具有相同Sno的元组，把它们连接起来重复上述步骤直到Student

7、表扫描完,说明 Student表和SC表都只要扫描一遍如果2个表原来无序，执行时间要加上对两个表的排序时间对于2个大表，先排序后使用sort-merge join方法执行连接，总的时间一般仍会大大减少,3. 索引连接(index join)方法步骤：在SC表上建立属性Sno的索引对Student中每一个元组，由Sno值通过SC的索引查找相应的SC元组把这些SC元组和Student元组连接起来循环执行，直到Student表中的元组处理完为止,4. Hash Join方法把连接属性作为hash码，用同一个hash函数把R和S中的元组散列到同一个hash文件中,步骤：划分阶段(p

8、artitioning phase)：对包含较少元组的表(比如R)进行一遍处理把它的元组按hash函数分散到hash表的桶中试探阶段(probing phase)：也称为连接阶段(join phase) 对另一个表(S)进行一遍处理把S的元组散列到适当的hash桶中把元组与桶中所有来自R并与之相匹配的元组连接起来,上面hash join算法前提：假设两个表中较小的表在第一阶段后可以完全放入内存的hash桶中以上的算法思想可以推广到更加一般的多个表的连接算法上,9.2 关系数据库系统的查询优化,查询优化的必要性查询优化在关系数据库系统中有着非常重要的地位,查询优化极大地影响RDBM

9、S的性能。查询优化的可能性由于关系表达式的语义级别很高，使关系系统可以从关系表达式中分析查询语义，提供了执行查询优化的可能性,优化器中包括了很多复杂的优化技术, 这些优化技术往往只有最好的程序员才能掌握。系统的自动优化相当于使得所有人都拥有这些优化技术,一、DBMS进行查询优化的好处,9.2.1 查询优化概述,优化器可以从数据字典中获取许多统计信息，而用户程序则难以获得这些信息,如果数据库的物理统计信息改变了，系统可以自动对查询重新优化以选择相适应的执行计划。在非关系系统中必须重写程序，而重写程序在实际应用中往往是不太可能的。,优化器可以考虑数百种不同的执行计划，而程序员一般只能考虑有限的几

10、种可能性。,集中式数据库单用户系统总代价 = I/O代价 + CPU代价多用户系统总代价 = I/O代价 + CPU代价 + 内存代价分布式数据库总代价 = I/O代价 + CPU代价 + 内存代价 + 通信代价,二、代价模型 RDBMS通过某种代价模型计算出各种查询执行策略的执行代价，然后选取代价最小的执行方案,三、查询优化目标, 选择有效策略求得给定关系表达式的值使得查询代价最小(实际上是较小),四、实际系统查询优化步骤： 1. 将查询转换成某种内部表示，通常是语法树 2. 根据一定的等价变换规则把语法树转换成标准（优化）形式 3. 选择低层的操作算法对于语法树中的每一个操作计

11、算各种执行算法的执行代价选择代价小的执行算法 4. 生成查询计划(查询执行方案) 查询计划是由一系列内部操作组成的。,例：求选修了课程2的学生姓名 SELECT Student.SnameFROM Student, SCWHERE Student.Sno=SC.Sno AND SC.Cno=2;,假设1：外存：Student:1000条；SC:10000条；选修2号课程：50条假设2：一个内存块装元组:10个Student, 或100个SC。内存中一次可以存放: 5块Student元组, 1块SC元组和若干块连接结果元组假设3：读写速度：20块/秒假设4：连接方法：基于数据块的嵌套循环

12、法,9.2.2 一个实例, 笛卡儿积 StudentSC读取总块数= 读Student表块数 + 读SC表遍数*每遍块数=1000/10+(1000/10/5 ) (10000/100)=100+20100=2100读数据时间=2100/20=105秒中间结果大小 = 1000*10000 = 107 (1千万条元组)写中间结果时间 = 10000000/10/20 = 50000秒,执行策略1：,选择：读中间数据时间 = 50000秒投影忽略内存处理时间，所以，总时间 =1055000050000秒 = 100105秒 = 27.8小时,1 name(Student.Sno=SC.Sn

13、o SC.Cno=2 (StudentSC),2 name(SC.Cno= 2 (Student SC)连接读取总块数= 2100块读数据时间=2100/20=105秒中间结果大小=10000 （减少1000倍）写中间结果时间=10000/10/20=50秒选择读中间数据时间=50秒投影总时间1055050秒205秒=3.4分,执行策略2：,3 Sname(Student SC.Cno= 2 (SC) 选择读SC表总块数= 10000/100=100块读数据时间=100/20=5秒中间结果大小=50条不必写入外存连接读Student表总块数= 1000/10=100块读数据时间=1

14、00/20=5秒投影总时间55秒10秒,执行策略3：,9.3.1 关系代数等价变换规则,9.3 代数优化,代数优化策略：通过对关系代数表达式的等价变换来提高查询效率关系代数表达式的等价：指用相同的关系代替两个表达式中相应的关系所得到的结果是相同的两个关系表达式E1和E2是等价的，可记为E1E2,常用的等价变换规则,3. 投影的串接定律 A1,A2, ,An( B1,B2, ,Bm(E) A1,A2, ,An (E) 假设： 1) E是关系代数表达式 2) Ai(i=1，2，n), Bj(j=l，2，m)是属性名 3)A1, A2, , An构成Bl，B2，Bm的子集,4. 选择的串接定

15、律F1 （ F2（E） F1 F2(E) 选择的串接律说明选择条件可以合并这样一次就可检查全部条件。,5. 选择与投影的交换律 (1)假设: 选择条件F只涉及属性A1，AnF (A1,A2, ,An(E) A1,A2, ,An(F(E)(2)假设: F中有不属于A1, ,An的属性B1,Bm A1,A2, ,An ( F (E) A1,A2, ,An(F (A1,A2, ,An,B1,B2, ,Bm(E),6. 选择与笛卡尔积的交换律 (1) 假设：F中涉及的属性都是E1中的属性F (E1E2)F (E1)E2 (2) 假设：F=F1F2，并且F1只涉及E1中的属性，F2只涉及E2中的属性则

16、由上面的等价变换规则1，4，6可推出：F(E1E2) F1(E1)F2 (E2) (3) 假设： F=F1F2，F1只涉及E1中的属性，F2涉及E1和E2两者的属性F(E1E2) F2(F1(E1)E2) 它使部分选择在笛卡尔积前先做,7. 选择与并的分配律假设：E=E1E2，E1，E2有相同的属性名F(E1E2) F(E1) F(E2)8. 选择与差运算的分配律假设：E1与E2有相同的属性名F(E1 - E2) F(E1) - F(E2) 9. 选择对自然连接的分配律 F(E1 E2)F(E1) F(E2) F只涉及E1与E2的公共属性,10. 投影与笛卡尔积的分配律假设：E1和E2是两个关

17、系表达式，A1，An是E1的属性，B1，Bm是E2的属性 A1,A2, ,An,B1,B2, ,Bm （E1E2) A1,A2, ,An（E1) B1,B2, ,Bm(E2) 11. 投影与并的分配律假设：E1和E2 有相同的属性名 A1,A2, ,An(E1E2) A1,A2, ,An(E1) A1,A2, ,An(E2),小结,1-2: 连接、笛卡尔积的交换律、结合律 3：合并或分解投影运算 4：合并或分解选择运算 5-9：选择运算与其他运算交换 5，10，11：投影运算与其他运算交换,9.3.2 查询树的启发式优化,典型的启发式规则：选择运算应尽可能先做。把投影运算和选择运

18、算同时进行把投影同其前或其后的双目运算结合起来把某些选择同在它前面要执行的笛卡尔积结合起来成为一个连接运算找出公共子表达式,方法：（1）分解选择运算利用规则4把形如F1 F2 Fn (E)变换为F1 (F2( (Fn(E) ) （2）通过交换选择运算，将其尽可能移到叶端对每一个选择，利用规则49尽可能把它移到树的叶端。,例：算法：关系表达式的优化输入：一个关系表达式的查询树输出：优化的查询树,（3）通过交换投影运算，将其尽可能移到叶端对每一个投影利用规则3，5，l0，11中的一般形式尽可能把它移向树的叶端。,注意： (1)等价变换规则3使一些投影消失 ;(2)规则5把一个投影分裂为两个

19、，其中一个有可能被移向树的叶端 .,（4）合并串接的选择和投影，以便能同时执行或在一次扫描中完成利用规则35把选择和投影的串接合并成单个选择、单个投影或一个选择后跟一个投影。使多个选择或投影能同时执行，或在一次扫描中全部完成尽管这种变换似乎违背“投影尽可能早做”的原则，但这样做效率更高。,（5）对内结点分组把上述得到的语法树的内节点分组。每一双目运算(，，- )和它所有的直接祖先为一组(这些直接祖先是，运算)。如果其后代直到叶子全是单目运算，则也将它们并入该组，但当双目运算是笛卡尔积()，而且其后的选择不能与它结合为等值连接时除外。把这些单目运算单独分为一组。,例：求选修了课程2

20、的学生姓名SELECT Student.SnameFROM Student, SCWHERE Student.Sno=SC.SnoAND SC.Cno=2;,第一步：把SQL语句转换成查询树 :,第二步：将查询树表示为关系代数语法树,第三步：利用规则优化,9.4 物理优化,选择方法：基于规则的启发式优化基于代价估算的优化两者结合的优化方法,代数优化改变查询语句中操作的次序和组合，不涉及底层的存取路径物理优化就是要选择高效合理的操作算法或存取路径，求得优化的查询计划，达到查询优化的目标。,9.4.1 基于启发式规则的存取路径选择优化,一、选择操作的启发式规则,1. 对于小关系，使用全表顺

21、序扫描，即使选择列上有索引对于大关系，有如下规则 2. 对于选择条件是主码值的查询，查询结果最多是一个元组，可以选择主码索引。一般的RDBMS会自动建立主码索引 3. 对于选择条件是非主属性值的查询，并且选择列上有索引，则要估计查询结果的元组数目，如果比例较小（10%）可以使用索引扫描方法，否则使用全表顺序扫描,4. 对于选择条件是属性上的非等值查询或范围查询，并且选择列上有索引，则要估计查询结果的元组数目，如果比例较小（10%）可以使用索引扫描方法，否则使用全表顺序扫描 5. 对于用AND连接的合取选择条件，如果有涉及这些属性的组合索引，则优先采用组合索引扫描方法；如果某些属性上有一般的索

22、引，则可以用例1-C4中介绍的索引扫描方法，否则使用全表顺序扫描 6. 对于用OR连接的析取选择条件，一般使用全表顺序扫描,二、连接操作的启发式规则,1. 如果2个表都已经按照连接属性排序，则选择排序合并方法 2. 如果一个表在连接属性上有索引，则可以选用索引连接方法 3. 如果上面2个规则都不适用，其中一个表较小，则可以选用Hash join方法,4. 最后可以选用嵌套循环方法，并选择其中较小的表，确切地讲是占用的块数(b)较少的表，作为外表（外循环的表）,for each 块br of R do beginfor each 块bs of S do beginfor each 元组tr in

23、 br do beginfor each 元组ts in bs do begin测试元组对（tr, ts）是否满足连接条件如果满足，把（tr, ts）加到结果中endendend end,理由：设连接表R与S分别占用的块数为Br与Bs 连接操作使用的内存缓冲区块数为K 分配K-1块给外表如果R为外表，则嵌套循环法存取的块数为Br+( Br/(K-1) )Bs 显然应该选块数小的表作为外表,9.4.2 基于代价的优化,启发式规则优化是定性的选择，适合解释执行的系统解释执行的系统，优化开销包含在查询总开销之中编译执行的系统中查询优化和查询执行是分开的可以采用精细复杂一些的基于代价的优化方

24、法,一、统计信息,1. 对每个基本表该表的元组总数(N) 元组长度(l) 占用的块数(B) 占用的溢出块数(BO),2. 对基表的每个列该列不同值的个数(m) 选择率(f) 如果不同值的分布是均匀的，则f1/m 如果不同值的分布不均匀，则每个值的选择率f具有该值的元组数/N 该列最大值该列最小值该列上是否已经建立了索引索引类型(B+树索引、Hash索引、聚集索引),3. 对索引(如B+树索引) 索引的层数(L) 不同索引值的个数索引的选择基数S(有S个元组具有某个索引值) 索引的叶结点数(Y),二、代价估算示例,1. 全表扫描算法的代价估计公式如果基本表大小为B块，全表扫描算法的

25、代价cost=B 如果选择条件是码值，那么平均搜索代价cost=B/2,2. 索引扫描算法的代价估算公式如果选择条件是码值如例1-C2，则采用该表的主索引若为B+树，层数为L，需要存取B+树中从根结点到叶结点L块，再加上基本表中该元组所在的那一块，所以cost=L+1 如果选择条件涉及非码属性如例1-C3，若为B+树索引，选择条件是相等比较，S是索引的选择基数(有S个元组满足条件) 最坏的情况下，满足条件的元组可能会保存在不同的块上，此时，cost=L+S,如果比较条件是，操作假设有一半的元组满足条件就要存取一半的叶结点通过索引访问一半的表存储块cost=L+Y/2+B/2 如果可

26、以获得更准确的选择基数，可以进一步修正Y/2与B/2,3. 嵌套循环连接算法的代价估算公式 9.4.1中已经讨论过了嵌套循环连接算法的代价 costBr+Bs/(K-1) Br 如果需要把连接结果写回磁盘，则costBr+Bs/(K-1) Br +(Frs*Br*Bs)/Mrs 其中Frs为连接选择性(join selectivity)，表示连接结果元组数的比例 Mrs是存放连接结果的块因子，表示每块中可以存放的结果元组数目。,4. 排序-合并连接算法的代价估算公式如果连接表已经按照连接属性排好序，则 costBr+Bs+(Frs*Br*Bs)/Mrs。如果必须对文件排序需要在代价函数中加上排序的代价对于包含B个块的文件排序的代价大约是(2*B)+(2*B*log2B),重点：查询优化方法的概念和技术。了解关系数据库查询优化的重要性。掌握查询处理各个步骤的主要功能。能够把SQL语句转换成查询树，对查询树进行代数优化，转换成优化的查询树。掌握物理优化的基本方法。难点：能运用本章学习的查询优化知识，对于比较复杂的查询，尤其是涉及连接和嵌套的查询，写出适合RDBMS自动优化的SQL语句。对于RDBMS不能优化的查询需要重写查询语句，进行手工调整以优化性能。不要把优化的任务全部放在RDBMS上,本章主要内容,

展开阅读全文