oracle分析函数.doc-道客多多_道客多多docduoduo.com

资源描述

1、Oracle 开发专题之：分析函数(OVER) .1Oracle 开发专题之：分析函数 2(Rank, Dense_rank, row_number) .6Oracle 开发专题之：分析函数 3(Top/Bottom N、First/Last、NTile) .10Oracle 开发专题之：窗口函数 .14Oracle 开发专题之：报表函数 .20Oracle 开发专题之：分析函数总结 .22Oracle 开发专题之：26 个分析函数 24PLSQL 开发笔记和小结 .28分析函数简述 60说明: 1)Oracle 开发专题 99%收集自: http:/ 1%);2) PLSQL 开发笔记和小结

2、收集自 http:/ http:/ http:/ 收集,并补充了一点点 1%Oracle 开发专题之：分析函数(OVER) 目录：=1.Oracle 分析函数简介2. Oracle 分析函数简单实例3.分析函数 OVER 解析一、Oracle 分析函数简介：在日常的生产环境中，我们接触得比较多的是 OLTP 系统(即 Online Transaction Process)，这些系统的特点是具备实时要求，或者至少说对响应的时间多长有一定的要求；其次这些系统的业务逻辑一般比较复杂，可能需要经过多次的运算。比如我们经常接触到的电子商城。在这些系统之外，还有一种称之为 OLAP 的系统(即 Onlin

3、e Aanalyse Process)，这些系统一般用于系统决策使用。通常和数据仓库、数据分析、数据挖掘等概念联系在一起。这些系统的特点是数据量大，对实时响应的要求不高或者根本不关注这方面的要求，以查询、统计操作为主。我们来看看下面的几个典型例子：查找上一年度各个销售区域排名前 10 的员工按区域查找上一年度订单总额占区域订单总额 20%以上的客户查找上一年度销售最差的部门所在的区域查找上一年度销售最好和最差的产品我们看看上面的几个例子就可以感觉到这几个查询和我们日常遇到的查询有些不同，具体有：需要对同样的数据进行不同级别的聚合操作需要在表内将多条数据和同一条数据进行多次的比较需要在排序完的结

4、果集上进行额外的过滤操作分析函数语法:FUNCTION_NAME(,.)OVER()例:sum(sal) over (partition by deptno order by ename) new_aliassum 就是函数名(sal)是分析函数的参数,每个函数有 03 个参数,参数可以是表达式,例如:sum(sal+comm)over 是一个关键字,用于标识分析函数,否则查询分析器不能区别 sum()聚集函数和 sum()分析函数partition by deptno 是可选的分区子句,如果不存在任何分区子句,则全部的结果集可看作一个单一的大区order by ename 是可选的 orde

5、r by 子句,有些函数需要它 ,有些则不需要.依靠已排序数据的那些函数,如: 用于访问结果集中前一行和后一行的 LAG 和 LEAD,必须使用,其它函数,如 AVG,则不需要.在使用了任何排序的开窗函数时,该子句是强制性的,它指定了在计算分析函数时一组内的数据是如何排序的.1)FUNCTION 子句ORACLE 提供了 26 个分析函数 ,按功能分 5 类分析函数分类等级(ranking)函数:用于寻找前 N 种查询开窗(windowing)函数:用于计算不同的累计 ,如 SUM,COUNT,AVG,MIN,MAX 等,作用于数据的一个窗口上例:sum(t.sal) over (order

6、by t.deptno,t.ename) running_total,sum(t.sal) over (partition by t.deptno order by t.ename) department_total制表(reporting) 函数:与开窗函数同名 ,作用于一个分区或一组上的所有列例:sum(t.sal) over () running_total2,sum(t.sal) over (partition by t.deptno ) department_total2制表函数与开窗函数的关键不同之处在于 OVER 语句上缺少一个 ORDER BY 子句!LAG,LEAD 函数:这

7、类函数允许在结果集中向前或向后检索值,为了避免数据的自连接,它们是非常用用的.VAR_POP,VAR_SAMP,STDEV_POPE 及线性的衰减函数:计算任何未排序分区的统计值2)PARTITION 子句按照表达式分区(就是分组),如果省略了分区子句,则全部的结果集被看作是一个单一的组3)ORDER BY 子句分析函数中 ORDER BY 的存在将添加一个默认的开窗子句 ,这意味着计算中所使用的行的集合是当前分区中当前行和前面所有行,没有 ORDER BY 时,默认的窗口是全部的分区在 Order by 子句后可以添加 nulls last,如:order by comm desc nul

8、ls last 表示排序时忽略 comm 列为空的行. 4)WINDOWING 子句用于定义分析函数将在其上操作的行的集合Windowing 子句给出了一个定义变化或固定的数据窗口的方法,分析函数将对这些数据进行操作默认的窗口是一个固定的窗口,仅仅在一组的第一行开始,一直继续到当前行,要使用窗口,必须使用 ORDER BY 子句根据 2 个标准可以建立窗口:数据值的范围 (RANGES)或与当前行的行偏移量.5)Rang 窗口Range 5 preceding:将产生一个滑动窗口,他在组中拥有当前行以前 5 行的集合ANGE 窗口仅对 NUMBERS 和 DATES 起作用,因为不可能从 VA

9、RCHAR2 中增加或减去 N 个单元另外的限制是 ORDER BY 中只能有一列,因而范围实际上是一维的 ,不能在 N 维空间中例:avg(t.sal) over(order by t.hiredate asc range 100 preceding) 统计前 100 天平均工资6)Row 窗口利用 ROW 分区 ,就没有 RANGE 分区那样的限制了,数据可以是任何类型 ,且 ORDER BY 可以包括很多列7)Specifying 窗口UNBOUNDED PRECEDING:这个窗口从当前分区的每一行开始,并结束于正在处理的当前行CURRENT ROW:该窗口从当前行开始(并结束)Num

10、eric Expression PRECEDING:对该窗口从当前行之前的数字表达式(Numeric Expression)的行开始,对 RANGE来说,从从行序值小于数字表达式的当前行的值开始.Numeric Expression FOLLOWING:该窗口在当前行 Numeric Expression 行之后的行终止( 或开始),且从行序值大于当前行 Numeric Expression 行的范围开始(或终止)range between 100 preceding and 100 following:当前行 100 前,当前后 100 后注意: 分析函数允许你对一个数据集进排序和筛选,这是

11、 SQL 从来不能实现的. 除了最后的 Order by 子句之外,分析函数是在查询中执行的最后的操作集,这样的话, 就不能直接在谓词中使用分析函数, 即不能在上面使用 where 或 having 子句!二、Oracle 分析函数简单实例：下面我们通过一个实际的例子：按区域查找上一年度订单总额占区域订单总额 20%以上的客户，来看看分析函数的应用。【1】测试环境：SQL desc orders_tmp;Name Null? Type- - -CUST_NBR NOT NULL NUMBER(5)REGION_ID NOT NULL NUMBER(5)SALESPERSON_ID NOT NU

12、LL NUMBER(5)YEAR NOT NULL NUMBER(4)MONTH NOT NULL NUMBER(2)TOT_ORDERS NOT NULL NUMBER(7)TOT_SALES NOT NULL NUMBER(11,2)【2】测试数据：SQL select * from orders_tmp;CUST_NBR REGION_ID SALESPERSON_ID YEAR MONTH TOT_ORDERS TOT_SALES- - - - - - -11 7 11 2001 7 2 122044 5 4 2001 10 2 378027 6 7 2001 2 3 375010 6

13、 8 2001 1 2 2169110 6 7 2001 2 3 4262415 7 12 2000 5 6 2412 7 9 2000 6 2 506581 5 2 2000 3 2 444941 5 1 2000 9 2 748642 5 4 2000 3 2 350602 5 4 2000 4 4 64542 5 1 2000 10 4 355804 5 4 2000 12 2 3919013 rows selected.【3】测试语句： SQL select o.cust_nbr customer,2 o.region_id region,3 sum(o.tot_sales) cust

14、_sales,4 sum(sum(o.tot_sales) over(partition by o.region_id) region_sales5 from orders_tmp o6 where o.year = 20017 group by o.region_id, o.cust_nbr;CUSTOMER REGION CUST_SALES REGION_SALES- - - -4 5 37802 378027 6 3750 6806510 6 64315 6806511 7 12204 12204三、分析函数 OVER 解析：请注意上面的绿色高亮部分，group by 的意图很明显：将

15、数据按区域 ID，客户进行分组，那么 Over 这一部分有什么用呢？假如我们只需要统计每个区域每个客户的订单总额，那么我们只需要 group by o.region_id,o.cust_nbr 就够了。但我们还想在每一行显示该客户所在区域的订单总额，这一点和前面的不同：需要在前面分组的基础上按区域累加。很显然group by 和 sum 是无法做到这一点的(因为聚集操作的级别不一样，前者是对一个客户，后者是对一批客户)。这就是 over 函数的作用了！它的作用是告诉 SQL 引擎：按区域对数据进行分区，然后累积每个区域每个客户的订单总额(sum(sum(o.tot_sales)。现在我们已经知

16、道 2001 年度每个客户及其对应区域的订单总额，那么下面就是筛选那些个人订单总额占到区域订单总额20%以上的大客户了SQL select *2 from (select o.cust_nbr customer,3 o.region_id region,4 sum(o.tot_sales) cust_sales,5 sum(sum(o.tot_sales) over(partition by o.region_id) region_sales6 from orders_tmp o7 where o.year = 20018 group by o.region_id, o.cust_nbr) a

17、ll_sales9 where all_sales.cust_sales all_sales.region_sales * 0.2;CUSTOMER REGION CUST_SALES REGION_SALES- - - -4 5 37802 3780210 6 64315 6806511 7 12204 12204SQL 现在我们已经知道这些大客户是谁了！哦，不过这还不够，如果我们想要知道每个大客户所占的订单比例呢？看看下面的SQL 语句，只需要一个简单的 Round 函数就搞定了。 SQL select all_sales.*,2 100 * round(cust_sales / regi

18、on_sales, 2) | % Percent3 from (select o.cust_nbr customer,4 o.region_id region,5 sum(o.tot_sales) cust_sales,6 sum(sum(o.tot_sales) over(partition by o.region_id) region_sales7 from orders_tmp o8 where o.year = 20019 group by o.region_id, o.cust_nbr) all_sales10 where all_sales.cust_sales all_sales

19、.region_sales * 0.2;CUSTOMER REGION CUST_SALES REGION_SALES PERCENT- - - - -4 5 37802 37802 100%10 6 64315 68065 94%11 7 12204 12204 100%SQL 总结：Over 函数指明在那些字段上做分析，其内跟 Partition by 表示对数据进行分组。注意 Partition by 可以有多个字段。Over 函数可以和其它聚集函数、分析函数搭配，起到不同的作用。例如这里的 SUM，还有诸如Rank，Dense_rank 等。Oracle 开发专题之：分析函数 2(Ra

20、nk, Dense_rank, row_number) 目录=1.使用 rownum 为记录排名2.使用分析函数来为记录排名3.使用分析函数为记录进行分组排名一、使用 rownum 为记录排名：在前面一篇Oracle 开发专题之：分析函数，我们认识了分析函数的基本应用，现在我们再来考虑下面几个问题：对所有客户按订单总额进行排名按区域和客户订单总额进行排名找出订单总额排名前 13 位的客户找出订单总额最高、最低的客户找出订单总额排名前 25%的客户按照前面第一篇文章的思路，我们只能做到对各个分组的数据进行统计，如果需要排名的话那么只需要简单地加上rownum 不就行了吗？事实情况是否如此想象般简

21、单，我们来实践一下。【1】测试环境：SQL desc user_order;Name Null? Type- - -REGION_ID NUMBER(2)CUSTOMER_ID NUMBER(2)CUSTOMER_SALES NUMBER【2】测试数据：SQL select * from user_order order by customer_sales;REGION_ID CUSTOMER_ID CUSTOMER_SALES- - -5 1 15116210 29 9033836 7 97158510 28 9869649 21 10205419 22 10361468 16 106846

22、76 8 11416385 3 11612865 5 11699268 19 11744217 12 11822757 11 11904216 10 11967486 9 120895910 30 12168585 2 12249929 24 12249929 23 12249928 18 12538407 15 12555917 13 131043410 27 13227478 20 14137226 6 178883610 26 18089495 4 18782757 14 19297748 17 19442819 25 223270330 rows selected.注意这里有 3 条记

23、录的订单总额是一样的。假如我们现在需要筛选排名前 12 位的客户，如果使用 rownum 会有什么样的后果呢？ SQL select rownum, t.*2 from (select * 3 from user_order4 order by customer_sales desc) t5 where rownum select region_id, customer_id, sum(customer_sales) total,2 rank() over(order by sum(customer_sales) desc) rank,3 dense_rank() over(order by

24、sum(customer_sales) desc) dense_rank,4 row_number() over(order by sum(customer_sales) desc) row_number5 from user_order6 group by region_id, customer_id;REGION_ID CUSTOMER_ID TOTAL RANK DENSE_RANK ROW_NUMBER- - - - - -8 18 1253840 11 11 115 2 1224992 12 12 129 23 1224992 12 12 139 24 1224992 12 12 1

25、410 30 1216858 15 13 1530 rows selected.请注意上面的绿色高亮部分，这里生动的演示了 3 种不同的排名策略：对于第一条相同的记录，3 种函数的排名都是一样的：12当出现第二条相同的记录时，Rank 和 Dense_rank 依然给出同样的排名 12；而 row_number 则顺延递增为 13，依次类推至第三条相同的记录当排名进行到下一条不同的记录时，可以看到 Rank 函数在 12 和 15 之间空出了 13,14 的排名，因为这 2 个排名实际上已经被第二、三条相同的记录占了。而 Dense_rank 则顺序递增。row_number 函数也是顺序递增

26、比较上面 3 种不同的策略，我们在选择的时候就要根据客户的需求来定夺了：假如客户就只需要指定数目的记录，那么采用 row_number 是最简单的，但有漏掉的记录的危险假如客户需要所有达到排名水平的记录，那么采用 rank 或 dense_rank 是不错的选择。至于选择哪一种则看客户的需要，选择 dense_rank 或得到最大的记录三、使用分析函数为记录进行分组排名：上面的排名是按订单总额来进行排列的，现在跟进一步：假如是为各个地区的订单总额进行排名呢？这意味着又多了一次分组操作：对记录按地区分组然后进行排名。幸亏 Oracle 也提供了这样的支持，我们所要做的仅仅是在 over 函数中o

27、rder by 的前面增加一个分组子句：partition by region_id。SQL select region_id, customer_id, sum(customer_sales) total,2 rank() over(partition by region_idorder by sum(customer_sales) desc) rank,3 dense_rank() over(partition by region_idorder by sum(customer_sales) desc) dense_rank,4 row_number() over(partition by

28、 region_idorder by sum(customer_sales) desc) row_number5 from user_order6 group by region_id, customer_id;REGION_ID CUSTOMER_ID TOTAL RANK DENSE_RANK ROW_NUMBER- - - - - -5 4 1878275 1 1 15 2 1224992 2 2 25 5 1169926 3 3 36 6 1788836 1 1 16 9 1208959 2 2 26 10 1196748 3 3 3 30 rows selected.现在我们看到的排

29、名将是基于各个地区的，而非所有区域的了！Partition by 子句在排列函数中的作用是将一个结果集划分成几个部分，这样排列函数就能够应用于这各个子集。前面我们提到的 5 个问题已经解决了 2 个了(第 1,2)，剩下的 3 个问题(Top/Bottom N，First/Last, NTile)会在下一篇讲解。Oracle 开发专题之：分析函数 3(Top/Bottom N、First/Last、NTile) 目录=1.带空值的排列2.Top/Bottom N 查询3.First/Last 排名查询4.按层次查询一、带空值的排列：在前面 Oracle 开发专题之：分析函数 2(Rank、De

30、nse_rank、row_number)一文中，我们已经知道了如何为一批记录进行全排列、分组排列。假如被排列的数据中含有空值呢？SQL select region_id, customer_id,2 sum(customer_sales) cust_sales,3 sum(sum(customer_sales) over(partition by region_id) ran_total,4 rank() over(partition by region_id5 order by sum(customer_sales) desc) rank6 from user_order7 group by

31、 region_id, customer_id;REGION_ID CUSTOMER_ID CUST_SALES RAN_TOTAL RANK- - - - - 10 31 6238901 110 26 1808949 6238901 210 27 1322747 6238901 310 30 1216858 6238901 410 28 986964 6238901 510 29 903383 6238901 6我们看到这里有一条记录的 CUST_TOTAL 字段值为 NULL，但居然排在第一名了！显然这不符合情理。所以我们重新调整完善一下我们的排名策略，看看下面的语句：SQL select

32、 region_id, customer_id,2 sum(customer_sales) cust_total,3 sum(sum(customer_sales) over(partition by region_id) reg_total,4 rank() over(partition by region_id order by sum(customer_sales) desc NULLS LAST) rank5 from user_order6 group by region_id, customer_id;REGION_ID CUSTOMER_ID CUST_TOTAL REG_TOT

33、AL RANK- - - - -10 26 1808949 6238901 110 27 1322747 6238901 210 30 1216858 6238901 310 28 986964 6238901 410 29 903383 6238901 510 31 6238901 6绿色高亮处，NULLS LAST/FIRST 告诉 Oracle 让空值排名最后后第一。注意是 NULLS，不是 NULL。二、Top/Bottom N 查询：在日常的工作生产中，我们经常碰到这样的查询：找出排名前 5 位的订单客户、找出排名前 10 位的销售人员等等。现在这个对我们来说已经是很简单的问题了。下

34、面我们用一个实际的例子来演示：【1】找出所有订单总额排名前 3 的大客户：SQL select *SQL from (select region_id,SQL customer_id,SQL sum(customer_sales) cust_total,SQL rank() over(order by sum(customer_sales) desc NULLS LAST) rankSQL from user_orderSQL group by region_id, customer_id)SQL where rank 【2】找出每个区域订单总额排名前 3 的大客户：SQL select *2

35、 from (select region_id,3 customer_id,4 sum(customer_sales) cust_total,5 sum(sum(customer_sales) over(partition by region_id) reg_total,6 rank() over(partition by region_idorder by sum(customer_sales) desc NULLS LAST) rank7 from user_order8 group by region_id, customer_id)9 where rank select min(cus

36、tomer_id)2 keep (dense_rank first order by sum(customer_sales) desc) first,3 min(customer_id)4 keep (dense_rank last order by sum(customer_sales) desc) last5 from user_order6 group by customer_id;FIRST LAST- -31 1这里有几个看起来比较疑惑的地方：为什么这里要用 min 函数Keep 这个东西是干什么的fist/last 是干什么的dense_rank 和 dense_rank()有什么

37、不同，能换成 rank 吗？首先解答一下第一个问题：min 函数的作用是用于当存在多个 First/Last 情况下保证返回唯一的记录。假如我们去掉会有什么样的后果呢？ SQL select keep (dense_rank first order by sum(customer_sales) desc) first, 2 keep (dense_rank last order by sum(customer_sales) desc) last3 from user_order4 group by customer_id;select keep (dense_rank first order

38、by sum(customer_sales) desc) first,*ERROR at line 1:ORA-00907: missing right parenthesis接下来看看第 2 个问题：keep 是干什么用的？从上面的结果我们已经知道 Oracle 对排名的结果只“保留”2 条数据，这就是 keep 的作用。告诉 Oracle 只保留符合 keep 条件的记录。那么什么才是符合条件的记录呢？这就是第 3 个问题了。dense_rank 是告诉 Oracle 排列的策略，first/last 则告诉最终筛选的条件。第 4 个问题：如果我们把 dense_rank 换成 rank

39、呢？ SQL select min(region_id)2 keep(rank first order by sum(customer_sales) desc) first,3 min(region_id)4 keep(rank last order by sum(customer_sales) desc) last5 from user_order6 group by region_id;select min(region_id)*ERROR at line 1:ORA-02000: missing DENSE_RANK四、按层次查询：现在我们已经见识了如何通过 Oracle 的分析函数来获

40、取 Top/Bottom N，第一个，最后一个记录。有时我们会收到类似下面这样的需求：找出订单总额排名前 1/5 的客户。很熟悉是不？我们马上会想到第二点中提到的方法，可是 rank 函数只为我们做好了排名，并不知道每个排名在总排名中的相对位置，这时候就引入了另外一个分析函数 NTile，下面我们就以上面的需求为例来讲解一下：SQL select region_id,2 customer_id,3 ntile(5) over(order by sum(customer_sales) desc) til4 from user_order5 group by region_id, customer_id;REGION_ID CUSTOMER_ID TILE- - -10 31 19 25 110 26 16 6 1 8 18 25 2 29 23 36 9 37 11 35 3 46 8 48 16 46 7 510 29 55 1 5Ntil 函数为各个记录在记录集中的排名计算比例，我们看到所有的记录被分成 5 个等级，那么假如我们只需要前 1/5的记录则只需要截取 TILE 的值为 1 的记录就可以了。假如

展开阅读全文