聚集索引和非聚集索引

时间:2022-09-16 00:35:07

聚集索引和非聚集索引的区别

  聚集索引:数据物理存储按索引排序

  非聚集索引:数据物理存储不按索引排序

 

优势与缺点

  聚集索引:插入数据时速度慢(时间花费在“物理存储的排序”上,也就是首先要找到位置然后插入数据),查询数据比非聚集数据的速度快

  索引是通过二叉树的数据结构来描述的,我们可以这么理解聚簇索引:索引的叶节点就是数据节点。

  而非聚簇索引的叶节点仍然是索引节点,只不过有一个指针指向对应的数据块。如下图:

聚集索引:

聚集索引和非聚集索引

非聚集索引:

聚集索引和非聚集索引

 

一、索引块与数据块的区别

 

索引可以提高检索效率,因为它的二叉树结构以及占用空间小,所以访问速度块。

如果表中的一条记录在磁盘上占用1000字节的话,我们对其中10字节的一个字段建立索引,那么该记录对应的索引块的大小只有10字节。

SQL Server的最小空间分配单元是“页(Page)”,一个页在磁盘上占用8K空间,那么这一个页可以存储上述记录8条,但可以存储索引800条。

现在我们要从一个有8000条记录的表中检索符合某个条件的记录,如果没有索引的话,我们可能需要遍历8000条×1000字节/8K字节=1000个页面才能够找到结

果。如果在检索字段上有上述索引的话,那么我们可以在8000条×10字节/8K字节=10个页面中就检索到满足条件的索引块,然后根据索引块上的指针逐一找到结果

数据块,这样IO访问量要少的多。

二、索引优化技术

是不是有索引就一定检索的快呢?答案是否。有些时候用索引还不如不用索引快。

比如说我们要检索上述表中的所有记录,如果不用索引,需要访问8000条×1000 字节/8K字节=1000个页面。

如果使用索引的话,首先检索索引,访问8000条×10字节/8K字节=10个页面得到索引检索结果,再根据索引检索结果去对应数据页面,

由于是检索所有数据,所以需要再访问8000条×1000字节/8K字节=1000个页面将全部数据读取出来,一共访问了1010个页面,这显然不如不用索引快。

 

三、聚簇索引与非聚簇索引的本质区别

现在可以讨论聚簇索引与非聚簇索引的本质区别了。正如前面的两个图所示,聚簇索引的叶节点就是数据节点,而非聚簇索引的页节点仍然是索引检点,

并保留一个链接指向对应数据块。

  假设有一8000条记录的表,表中每条记录在磁盘上占用1000字节,如果在一个10字节长的字段上建立非聚簇索引主键,需要二叉树节点16000个(这16000个节点中有8000个叶节点,每个页节点都指向一个数据记录),这样数据将占用8000条×1000字节 /8K字节=1000个页面;索引将占用16000个节点×10字节/8K字节=20个页面,共计1020个页面。

同样一张表,如果我们在对应字段上建立聚簇索引主键,由于聚簇索引的页节点就是数据节点,所以索引节点仅有8000个,占用10个页面,数据仍然占有1000个页面。

  在执行插入操作时,非聚簇索引的主键为什么比聚簇索引主键要快。主键约束要求主键不能出现重复,那么SQL Server是怎么知道不出现重复的呢?唯一的方法就是检索。对于非聚簇索引,只需要检索20个页面中的16000个节点就知道是否有重复,因为所有主键键值在这16000个索引节点中都包含了。但对于聚簇索引,索引节点仅仅包含了8000个中间节点,至于会不会出现重复必须检索另外8000个页数据节点才知道,那么相当于检索10+1000=1010个页面才知道是否有重复。所以聚簇索引主键的插入速度要比非聚簇索引主键的插入速度慢很多。

  数据检索的效率,如果对上述两表进行检索,在使用索引的情况下(有些时候SQL Server执行计划会选择不使用索引,不过我们这里姑且假设一定使用索引),对于聚簇索引检索,我们可能会访问10个索引页面外加1000个数据页面得到结果(实际情况要比这个好),而对于非聚簇索引,系统会从20个页面中找到符合条件的节点,再映射到1000个数据页面上(这也是最糟糕的情况),比较一下,一个访问了1010个页面而另一个访问了1020个页面,可见检索效率差异并不是很大。所以不管非聚簇索引也好还是聚簇索引也好,都适合排序,聚簇索引仅仅比非聚簇索引快一点。

 

下表描述聚簇索引与非聚簇索引的适用范围: 
 
动作描述            使用聚集索引     使用非聚集索引 
列经常被分组排序        应                应 
返回某范围内的数据        应                不应 
返回精确匹配的数据        不应            应 
一个或极少不同值        不应            不应 
小数目的不同值            应                不应 
大数目的不同值            不应            应 
频繁更新的列            不应            应 
外键列                    应                应 
主键列                    应                应 
 
注:主键列如果是采用标识且经常用于范围查询,则适用聚簇索引,否则适用非聚簇索引。
 

转载:http://kb.cnblogs.com/page/44125/