SQL语句性能调整之ORACLE的执行计划(一)

如何分析执行计划

　　例1：

　　假设LARGE_TABLE是一个较大的表，且username列上没有索引，则运行下面的语句：

　　SQL> SELECT * FROM LARGE_TABLE where USERNAME = ‘TEST’;

　　Query Plan

　　-----------------------------------------

　　SELECT STATEMENT Optimizer=CHOOSE (Cost=1234 Card=1 Bytes=14)

　　TABLE ACCESS FULL LARGE_TABLE [:Q65001] [ANALYZED]

　　在这个例子中，TABLE ACCESS FULL LARGE_TABLE是第一个操作，意思是在LARGE_TABLE表上做全表扫描。当这个操作完成之后，产生的row source中的数据被送往下一步骤进行处理，在此例中，SELECT STATEMENT操作是这个查询语句的最后一步。

　　Optimizer=CHOOSE 指明这个查询的optimizer_mode，即optimizer_mode初始化参数指定的值，它并不是指语句执行时真的使用了该优化器。决定该语句使用何种优化器的唯一方法是看后面的cost部分。例如，如果给出的是下面的形式，则表明使用的是CBO优化器，此处的cost表示优化器认为该执行计划的代价:

　　SELECT STATEMENT Optimizer=CHOOSE (Cost=1234 Card=1 Bytes=14)

　　然而假如执行计划中给出的是类似下面的信息，则表明是使用RBO优化器，因为cost部分的值为空，或者压根就没有cost部分。

　　SELECT STATEMENT Optimizer=CHOOSE Cost=

　　SELECT STATEMENT Optimizer=CHOOSE

　　这样我们从Optimizer后面的信息中可以得出执行该语句时到底用了什么样的优化器。特别的，如果Optimizer=ALL_ROWS| FIRST_ROWS| FIRST_ROWS_n，则使用的是CBO优化器;如果Optimizer=RULE，则使用的是RBO优化器。

　　cost属性的值是一个在oracle内部用来比较各个执行计划所耗费的代价的值，从而使优化器可以选择最好的执行计划。不同语句的cost值不具有可比性，只能对同一个语句的不同执行计划的cost值进行比较。

　　[:Q65001] 表明该部分查询是以并行方式运行的。里面的数据表示这个操作是由并行查询的一个slave进程处理的，以便该操作可以区别于串行执行的操作。

　　[ANALYZED] 表明操作中引用的对象被分析过了，在数据字典中有该对象的统计信息可以供CBO使用。

　　例2：

　　假定A、B、C都是不是小表，且在A表上一个组合索引：A(a.col1,a.col2) ，注意a.col1列为索引的引导列。

　　考虑下面的查询：

　　select A.col4

　　from A , B , C

　　where B.col3 = 10 and A.col1 = B.col1 and A.col2 = C.col2 and C.col3 = 5

　　Execution Plan

　　----------------------------------------------------------

　　0 SELECT STATEMENT Optimizer=CHOOSE

　　1 0 MERGE JOIN

　　2 1 SORT (JOIN)

　　3 2 NESTED LOOPS

　　4 3 TABLE ACCESS (FULL) OF 'B'

　　5 3 TABLE ACCESS (BY INDEX ROWID) OF 'A'

　　6 5 INDEX (RANGE SCAN) OF 'INX_COL12A' (NON-UNIQUE)

　　7 1 SORT (JOIN)

　　8 7 TABLE ACCESS (FULL) OF 'C'

　　Statistics

　　----------------------------------------------------------

　　0 recursive calls

　　8 db block gets

　　6 consistent gets

　　0 physical reads

　　0 redo size

　　551 bytes sent via SQL*Net to client

　　430 bytes received via SQL*Net from client

　　2 SQL*Net roundtrips to/from client

　　2 sorts (memory)

　　0 sorts (disk)

　　6 rows processed

　　在表做连接时，只能2个表先做连接，然后将连接后的结果作为一个row source，与剩下的表做连接，在上面的例子中，连接顺序为B与A先连接，然后再与C连接：

　　B <---> A <---> C

　　col3=10 col3=5

　　如果没有执行计划，分析一下，上面的3个表应该拿哪一个作为第一个驱动表?从SQL语句看来，只有B表与C表上有限制条件，所以第一个驱动表应该为这2个表中的一个，到底是哪一个呢?

　　B表有谓词B.col3 = 10，这样在对B表做全表扫描的时候就将where子句中的限制条件(B.col3 = 10)用上，从而得到一个较小的row source, 所以B表应该作为第一个驱动表。而且这样的话，如果再与A表做关联，可以有效利用A表的索引(因为A表的col1列为leading column)。

　　当然上面的查询中C表上也有谓词(C.col3 = 5)，有人可能认为C表作为第一个驱动表也能获得较好的性能。让我们再来分析一下：如果C表作为第一个驱动表，则能保证驱动表生成很小的row source，但是看看连接条件A.col2 = C.col2，此时就没有机会利用A表的索引，因为A表的col2列不为leading column，这样nested loop的效率很差，从而导致查询的效率很差。所以对于NL连接选择正确的驱动表很重要。

　　因此上面查询比较好的连接顺序为(B - - > A) - - > C。如果数据库是基于代价的优化器，它会利用计算出的代价来决定合适的驱动表与合适的连接顺序。一般来说，CBO都会选择正确的连接顺序，如果CBO选择了比较差的连接顺序，我们还可以使用ORACLE提供的hints来让CBO采用正确的连接顺序。如下所示：

　　select /*+ ordered */ A.col4

　　from B,A,C

　　where B.col3 = 10

　　and A.col1 = B.col1

　　and A.col2 = C.col2

　　and C.col3 = 5

　　既然选择正确的驱动表这么重要，那么让我们来看一下执行计划，到底各个表之间是如何关联的，从而得到执行计划中哪个表应该为驱动表：

　　在执行计划中，需要知道哪个操作是先执行的，哪个操作是后执行的，这对于判断哪个表为驱动表有用处。判断之前，如果对表的访问是通过rowid，且该rowid的值是从索引扫描中得来得，则将该索引扫描先从执行计划中暂时去掉。然后在执行计划剩下的部分中，判断执行顺序的指导原则就是：最右、最上的操作先执行。具体解释如下：

　　得到去除妨碍判断的索引扫描后的执行计划：

　　Execution Plan

　　----------------------------------------------------------

　　0 SELECT STATEMENT Optimizer=CHOOSE

　　1 0 MERGE JOIN

　　2 1 SORT (JOIN)

　　3 2 NESTED LOOPS

　　4 3 TABLE ACCESS (FULL) OF 'B'

　　5 3 TABLE ACCESS (BY INDEX ROWID) OF 'A'

　　7 1 SORT (JOIN)

　　8 7 TABLE ACCESS (FULL) OF 'C'

　　看执行计划的第3列，即字母部分，每列值的左面有空格作为缩进字符。在该列值左边的空格越多，说明该列值的缩进越多，该列值也越靠右。如上面的执行计划所示：第一列值为6的行的缩进最多，即该行最靠右;第一列值为4、5的行的缩进一样，其靠右的程度也一样，但是第一列值为4的行比第一列值为5的行靠上;谈论上下关系时，只对连续的、缩进一致的行有效。

　　从这个图中我们可以看到，对于NESTED LOOPS部分，最右、最上的操作是TABLE ACCESS (FULL) OF 'B'，所以这一操作先执行，所以该操作对应的B表为第一个驱动表(外部表)，自然，A表就为内部表了。从图中还可以看出，B与A表做嵌套循环后生成了新的row source ，对该row source进行来排序后，与C表对应的排序了的row source(应用了C.col3 = 5限制条件)进行MSJ连接操作。所以从上面可以得出如下事实：B表先与A表做嵌套循环，然后将生成的row source与C表做排序—合并连接。

　　通过分析上面的执行计划，我们不能说C表一定在B、A表之后才被读取，事实上，B表有可能与C表同时被读入内存，因为将表中的数据读入内存的操作可能为并行的。事实上许多操作可能为交叉进行的，因为ORACLE读取数据时，如果就是需要一行数据也是将该行所在的整个数据块读入内存，而且还有可能为多块读。

　　看执行计划时，我们的关键不是看哪个操作先执行，哪个操作后执行，而是关键看表之间连接的顺序(如得知哪个为驱动表，这需要从操作的顺序进行判断)、使用了何种类型的关联及具体的存取路径(如判断是否利用了索引)

　　在从执行计划中判断出哪个表为驱动表后，根据我们的知识判断该表作为驱动表(就像上面判断ABC表那样)是否合适，如果不合适，对SQL语句进行更改，使优化器可以选择正确的驱动表。

Rowid的概念：

　　rowid是一个伪列，既然是伪列，那么这个列就不是用户定义，而是系统自己给加上的。对每个表都有一个rowid的伪列，但是表中并不物理存储ROWID列的值。不过你可以像使用其它列那样使用它，但是不能删除改列，也不能对该列的值进行修改、插入。一旦一行数据插入数据库，则rowid在该行的生命周期内是唯一的，即即使该行产生行迁移，行的rowid也不会改变。

　　为什么使用ROWID

　　rowid对访问一个表中的给定的行提供了最快的访问方法，通过ROWID可以直接定位

　　到相应的数据块上，然后将其读到内存。我们创建一个索引时，该索引不但存储索引列的值，而且也存储索引值所对应的行的ROWID，这样我们通过索引快速找到相应行的ROWID后，通过该ROWID，就可以迅速将数据查询出来。这也就是我们使用索引查询时，速度比较快的原因。

　　在ORACLE8以前的版本中，ROWID由FILE 、BLOCK、ROW NUMBER构成。随着oracle8中对象概念的扩展，ROWID发生了变化，ROWID由OBJECT、FILE、BLOCK、ROW NUMBER构成。利用DBMS_ROWID可以将rowid分解成上述的各部分，也可以将上述的各部分组成一个有效的rowid。

　　Recursive SQL概念

　　有时为了执行用户发出的一个sql语句，Oracle必须执行一些额外的语句，我们将这些额外的语句称之为'recursive calls'或'recursive SQL statements'。如当一个DDL语句发出后，ORACLE总是隐含的发出一些recursive SQL语句，来修改数据字典信息，以便用户可以成功的执行该DDL语句。当需要的数据字典信息没有在共享内存中时，经常会发生Recursive calls，这些Recursive calls会将数据字典信息从硬盘读入内存中。用户不比关心这些recursive SQL语句的执行情况，在需要的时候，ORACLE会自动的在内部执行这些语句。当然DML语句与SELECT都可能引起recursive SQL。简单的说，我们可以将触发器视为recursive SQL。

　　Row Source(行源)

　　用在查询中，由上一操作返回的符合条件的行的集合，即可以是表的全部行数据的集合;也可以是表的部分行数据的集合;也可以为对上2个row source进行连接操作(如join连接)后得到的行数据集合。

　　Predicate(谓词)

　　一个查询中的WHERE限制条件

　　Driving Table(驱动表)

　　该表又称为外层表(OUTER TABLE)。这个概念用于嵌套与HASH连接中。如果该row source返回较多的行数据，则对所有的后续操作有负面影响。注意此处虽然翻译为驱动表，但实际上翻译为驱动行源(driving row source)更为确切。一般说来，是应用查询的限制条件后，返回较少行源的表作为驱动表，所以如果一个大表在WHERE条件有有限制条件(如等值限制)，则该大表作为驱动表也是合适的，所以并不是只有较小的表可以作为驱动表，正确说法应该为应用查询的限制条件后，返回较少行源的表作为驱动表。在执行计划中，应该为靠上的那个row source，后面会给出具体说明。在我们后面的描述中，一般将该表称为连接操作的row source 1。

　　Probed Table(被探查表)

　　该表又称为内层表(INNER TABLE)。在我们从驱动表中得到具体一行的数据后，在该表中寻找符合连接条件的行。所以该表应当为大表(实际上应该为返回较大row source的表)且相应的列上应该有索引。在我们后面的描述中，一般将该表称为连接操作的row source 2。

　　组合索引(concatenated index)

　　由多个列构成的索引，如create index idx_emp on emp(col1, col2, col3, ……)，则我们称idx_emp索引为组合索引。在组合索引中有一个重要的概念：引导列(leading column)，在上面的例子中，col1列为引导列。当我们进行查询时可以使用”where col1 = ? ”，也可以使用”where col1 = ? and col2 = ?”，这样的限制条件都会使用索引，但是”where col2 = ? ”查询就不会使用该索引。所以限制条件中包含先导列时，该限制条件才会使用该组合索引。

可选择性(selectivity)：

　　比较一下列中唯一键的数量和表中的行数，就可以判断该列的可选择性。如果该列的”唯一键的数量/表中的行数”的比值越接近1，则该列的可选择性越高，该列就越适合创建索引，同样索引的可选择性也越高。在可选择性高的列上进行查询时，返回的数据就较少，比较适合使用索引查询。

　　有了这些背景知识后就开始介绍执行计划。为了执行语句，Oracle可能必须实现许多步骤。这些步骤中的每一步可能是从数据库中物理检索数据行，或者用某种方法准备数据行，供发出语句的用户使用。Oracle用来执行语句的这些步骤的组合被称之为执行计划。执行计划是SQL优化中最为复杂也是最为关键的部分，只有知道了ORACLE在内部到底是如何执行该SQL语句后，我们才能知道优化器选择的执行计划是否为最优的。执行计划对于DBA来说，就象财务报表对于财务人员一样重要。所以我们面临的问题主要是：如何得到执行计划;如何分析执行计划，从而找出影响性能的主要问题。下面先从分析树型执行计划开始介绍，然后介绍如何得到执行计划，再介绍如何分析执行计划。

　　举例：

　　这个例子显示关于下面SQL语句的执行计划。

　　SELECT ename, job, sal, dname

　　FROM emp, dept

　　WHERE emp.deptno = derpt.deptno

　　AND NOT EXISTS

　　( SELECT *

　　FROM salgrade

　　WHERE emp.sal BETWEEN losal AND hisal );

　　此语句查询薪水不在任何建议薪水范围内的所有雇员的名字，工作，薪水和部门名。

　　下图5-1显示了一个执行计划的图形表示：

执行计划的步骤

　　执行计划的每一步返回一组行，它们或者为下一步所使用，或者在最后一步时返回给发出SQL语句的用户或应用。由每一步返回的一组行叫做行源(row source)。图5-1树状图显示了从一步到另一步行数据的流动情况。每步的编号反映了在你观察执行计划时所示步骤的顺序(如何观察执行计划将被简短地说明)。一般来说这并不是每一步被执行的先后顺序。执行计划的每一步或者从数据库中检索行，或者接收来自一个或多个行源的行数据作为输入：

　　由红色字框指出的步骤从数据库中的数据文件中物理检索数据。这种步骤被称之为存取路径，后面会详细介绍在Oracle可以使用的存取路径：

　　第3步和第6步分别的从EMP表和SALGRADE表读所有的行。

　　第5步在PK_DEPTNO索引中查找由步骤3返回的每个DEPTNO值。它找出与DEPT表中相关联的那些行的ROWID。

　　第4步从DEPT表中检索出ROWID为第5步返回的那些行。

　　由黑色字框指出的步骤在行源上操作，如做2表之间的关联，排序，或过滤等操作，后面也会给出详细的介绍：

　　第2步实现嵌套的循环操作(相当于C语句中的嵌套循环)，接收从第3步和第4步来的行源，把来自第3步源的每一行与它第4步中相应的行连接在一起，返回结果行到第1步。

　　第1步完成一个过滤器操作。它接收来自第2步和第6步的行源，消除掉第2步中来的，在第6步有相应行的那些行，并将来自第2步的剩下的行返回给发出语句的用户或应用。

　　实现执行计划步骤的顺序

　　执行计划中的步骤不是按照它们编号的顺序来实现的：Oracle首先实现图5-1树结构图形里作为叶子出现的那些步骤(例如步骤3、5、6)。由每一步返回的行称为它下一步骤的行源。然后Oracle实现父步骤。

　　举例来说，为了执行图5-1中的语句，Oracle以下列顺序实现这些步骤：

　　首先，Oracle实现步骤3，并一行一行地将结果行返回给第2步。

　　对第3步返回的每一行，Oracle实现这些步骤：

　　-- Oracle实现步骤5，并将结果ROWID返回给第4步。

　　-- Oracle实现步骤4，并将结果行返回给第2步。

　　-- Oracle实现步骤2，将接受来自第3步的一行和来自第4步的一行，并返回

　　给第1步一行。

　　-- Oracle实现步骤6，如果有结果行的话，将它返回给第1步。

　　-- Oracle实现步骤1，如果从步骤6返回行，Oracle将来自第2步的行返回给

　　发出SQL语句的用户。

　　注意Oracle对由第3步返回的每一行实现步骤5，4，2，6一次。许多父步骤在它们能执行之前只需要来自它们子步骤的单一行。对这样的父步骤来说，只要从子步骤已返回单一行时立即实现父步骤(可能还有执行计划的其余部分)。如果该父步骤的父步骤同样可以通过单一行返回激活的话，那么它也同样被执行。所以，执行可以在树上串联上去，可能包含执行计划的余下部分。对于这样的操作，可以使用first_rows作为优化目标以便于实现快速响应用户的请求。

　　对每个由子步骤依次检索出来的每一行，Oracle就实现父步骤及所有串联在一起的步骤一次。对由子步骤返回的每一行所触发的父步骤包括表存取，索引存取，嵌套的循环连接和过滤器。

　　有些父步骤在它们被实现之前需要来自子步骤的所有行。对这样的父步骤，直到所有行从子步骤返回之前Oracle不能实现该父步骤。这样的父步骤包括排序，排序一合并的连接，组功能和总计。对于这样的操作，不能使用first_rows作为优化目标，而可以用all_rows作为优化目标，使该中类型的操作耗费的资源最少。

　　有时语句执行时，并不是象上面说的那样一步一步有先有后的进行，而是可能并行运行，如在实际环境中，3、5、4步可能并行运行，以便取得更好的效率。从上面的树型图上，是很难看出各个操作执行的先后顺序，而通过ORACLE生成的另一种形式的执行计划，则可以很容易的看出哪个操作先执行，哪个后执行，这样的执行计划是我们真正需要的，后面会给出详细说明。现在先来看一些预备知识。

秒客网

SQL语句性能调整之ORACLE的执行计划(一)

相关文章