数据库中如何处理大型数据.doc-道客多多

资源描述

1、处理百万级以上的数据提高查询速度的方法：1.应尽量避免在 where 子句中使用!=或=2005-11-30 and createdate “, “!=“, “! “, “! ”等还是不能优化，用不到索引。 23、使用 Query Analyzer，查看 SQL 语句的查询计划和评估分析是否是优化的 SQL。一般的 20%的代码占据了 80%的资源，我们优化的重点是这些慢的地方。 24、如果使用了 IN 或者 OR 等时发现查询没有走索引，使用显示申明指定索引： SELECT * FROM PersonMember (INDEX = IX_Title) WHERE processid IN (

2、男，女) 25、将需要查询的结果预先计算好放在表中，查询的时候再 SELECT。这在 SQL7.0 以前是最重要的手段。例如医院的住院费计算。 26、MIN() 和 MAX()能使用到合适的索引 27、数据库有一个原则是代码离数据越近越好，所以优先选择 Default,依次为Rules,Triggers, Constraint（约束如外健主健 CheckUNIQUE,数据类型的最大长度等等都是约束）,Procedure. 这样不仅维护工作小，编写程序质量高，并且执行的速度快。 28、如果要插入大的二进制值到 Image 列，使用存储过程，千万不要用内嵌 INsert 来插入(不知 JAVA 是

3、否)。因为这样应用程序首先将二进制值转换成字符串（尺寸是它的两倍），服务器受到字符后又将他转换成二进制值.存储过程就没有这些动作: 方法：Create procedure p_insert as insert into table(Fimage) values (image), 在前台调用这个存储过程传入二进制参数，这样处理速度明显改善。 29、Between 在某些时候比 IN 速度更快,Between 能够更快地根据索引找到范围。用查询优化器可见到差别。 select * from chineseresume where title in (男,女) Select * from chin

4、eseresume where between 男 and 女是一样的。由于 in 会在比较多次，所以有时会慢些。 30、在必要是对全局或者局部临时表创建索引，有时能够提高速度，但不是一定会这样，因为索引也耗费大量的资源。他的创建同是实际表一样。 31、不要建没有作用的事物例如产生报表时，浪费资源。只有在必要使用事物时使用它。 32、用 OR 的字句可以分解成多个查询，并且通过 UNION 连接多个查询。他们的速度只同是否使用索引有关,如果查询需要用到联合索引，用 UNION all 执行的效率更高.多个OR 的字句没有用到索引，改写成 UNION 的形式再试图与索引匹配。一个关键的问题是否

5、用到索引。 33、尽量少用视图，它的效率低。对视图操作比直接对表操作慢,可以用 stored procedure来代替她。特别的是不要用视图嵌套,嵌套视图增加了寻找原始资料的难度。我们看视图的本质：它是存放在服务器上的被优化好了的已经产生了查询规划的 SQL。对单个表检索数据时，不要使用指向多个表的视图，直接从表检索或者仅仅包含这个表的视图上读，否则增加了不必要的开销,查询受到干扰.为了加快视图的查询，MsSQL 增加了视图索引的功能。34、没有必要时不要用 DISTINCT 和 ORDER BY，这些动作可以改在客户端执行。它们增加了额外的开销。这同 UNION 和 UNION ALL 一样

6、的道理。 SELECT top 20 panyname,comid,position,ad.referenceid,worklocation, convert(varchar(10),ad.postDate,120) as postDate1,workyear,degreedescription FROM jobcn_query.dbo.COMPANYAD_query ad where referenceID in(JCNAD00329667,JCNAD132168,JCNAD00337748,JCNAD00338345,JCNAD00333138,JCNAD00303570, JCNAD00

7、303569,JCNAD00303568,JCNAD00306698,JCNAD00231935,JCNAD00231933,JCNAD00254567, JCNAD00254585,JCNAD00254608,JCNAD00254607,JCNAD00258524,JCNAD00332133,JCNAD00268618, JCNAD00279196,JCNAD00268613) order by postdate desc 35、在 IN 后面值的列表中，将出现最频繁的值放在最前面，出现得最少的放在最后面，减少判断的次数 36、当用 SELECT INTO 时，它会锁住系统表(sysobje

8、cts，sysindexes 等等) ，阻塞其他的连接的存取。创建临时表时用显示申明语句，而不是 select INTO. drop table t_lxh begin tran select * into t_lxh from chineseresume where name = XYZ -commit 在另一个连接中 SELECT * from sysobjects 可以看到 SELECT INTO 会锁住系统表，Create table 也会锁系统表(不管是临时表还是系统表)。所以千万不要在事物内使用它！这样的话如果是经常要用的临时表请使用实表，或者临时表变量。 37、一般在 GROUP

9、 BY 个 HAVING 字句之前就能剔除多余的行，所以尽量不要用它们来做剔除行的工作。他们的执行顺序应该如下最优：select 的 Where 字句选择所有合适的行，Group By 用来分组个统计行，Having 字句用来剔除多余的分组。这样 Group By 个 Having 的开销小，查询快.对于大的数据行进行分组和 Having 十分消耗资源。如果Group BY 的目的不包括计算，只是分组，那么用 Distinct 更快 38、一次更新多条记录比分多次更新每次一条快,就是说批处理好 39、少用临时表，尽量用结果集和 Table 类性的变量来代替它 ,Table 类型的变量比临时表好

10、 40、在 SQL2000 下，计算字段是可以索引的，需要满足的条件如下： a、计算字段的表达是确定的 b、不能用在 TEXT,Ntext， Image 数据类型 c、必须配制如下选项 ANSI_NULLS = ON, ANSI_PADDINGS = ON, . 41、尽量将数据的处理工作放在服务器上，减少网络的开销，如使用存储过程。存储过程是编译好、优化过、并且被组织到一个执行规划里、且存储在数据库中的 SQL 语句，是控制流语言的集合，速度当然快。反复执行的动态 SQL,可以使用临时存储过程，该过程（临时表）被放在 Tempdb 中。以前由于 SQL SERVER 对复杂的数学计算不支持，

11、所以不得不将这个工作放在其他的层上而增加网络的开销。SQL2000 支持 UDFs,现在支持复杂的数学计算，函数的返回值不要太大，这样的开销很大。用户自定义函数象光标一样执行的消耗大量的资源，如果返回大的结果采用存储过程 42、不要在一句话里再三的使用相同的函数，浪费资源,将结果放在变量里再调用更快 43、SELECT COUNT(*)的效率教低，尽量变通他的写法，而 EXISTS 快.同时请注意区别：select count(Field of null) from Table 和 select count(Field of NOT null) from Table 的返回值是不同的。 44、当服务器的内存够多时，配制线程数量 = 最大连接数+5，这样能发挥最大的效率；否则使用配制线程数量 3000 在此语句中若 salary是 Float 类型的，则优化器对其进行优化为 Convert(float,3000)，因为 3000 是个整数，我们应在编程时使用 3000.0 而不要等运行时让 DBMS 进行转化。同样字符和整型数据的转换。

展开阅读全文