聚簇索引,并不是一种单独的索引类型,而是一种数据存储方式。InnoDB的聚簇索引实际上在同一个结构中保存了B-Tree索引和数据行信息。
因为无法把数据行存放在两个不同的地方,所以一个表只能有一个聚簇索引(不过可以通过覆盖索引来模拟,稍后再介绍)。
这里主要讨论InnoDB引擎,InnoDB通过主键聚集数据,如果没有主键会选择一个非空的唯一索引,如果还没有,InnoDB会隐式定义一个主键来作为聚簇索引。
聚簇索引是一把双刃剑,要仔细考虑。
优点:
1、可以把相关数据保存在一起,例如实现电子邮件时,根据用户ID来聚集数据,这样只需要从磁盘都去少量数据页就可以获取某个用户的全部邮件,如果没有聚簇索引,则每封邮件都可能导致一次I/O
2、数据访问更快。因为索引和数据都在一个B-Tree中。
3、使用聚簇索引的查询,可以直接使用页节点中的主键值。
缺点:
1、聚簇索引最大限度的提高了I/O密集型应用的性能,如果数据都放在内存中了,优势就没了。
2、插入速度严重依赖于插入顺序,按照主键的顺序插入到数据表中速度是最快的。如果不是,插入完数据之后最好使用OPTIMIZE TABLE命令组织一下。
3、更新聚簇索引列的代价很高,因为需要移动新的数据。
4、在插入新行,或者主键更新需要移动行的时候,可能导致页分裂,从而导致占用更多的磁盘空间。
5、二级索引(非聚簇)可能比想象的要大,因为二级索引的叶子节点中包含了引用行的主键列。
6、二级索引访问需要2次索引查找,而不是一次,因为二级索引保存的不是行的物理位置,而是主键值。
InnoDB和MyISAM数据分布对比。
CREATE TABLE `layout_test` ( `col1` int(11) NOT NULL,
`col2` int(11) NOT NULL,
PRIMARY KEY (`col1`),
KEY `col2` (`col2`)
);
主键不是递增的,随机顺序插入,col2随即复制,重复的很多。
MyISAM比较简单,他按照数据插入的顺序存储在磁盘上。
col2索引没有什么区别。
InnoDB支持聚簇索引,所以存储方式非常不同
会发现,该图显示了整个表,而不是只有索引。因为InnoDB中,聚簇索引“就是”表,所以不会像MyISAM那样需要独立的行存储。
即使主键是一个前缀索引,聚簇索引也会包含完整的主键列和其他列。
还有一点和MyISAM不同,InnoDB的二级索引和聚簇索引很不相同,InnoDB二级索引的叶子节点中存储的不是行指针,而是主键值,这样就减少了移动数据或者页分裂时对二级索引的维护工作。使用主键占用的空间更多,但是无需更新二级索引。
下图更直接的展示了两者的区别。
如果在使用InnoDB表,并且没有数据需要聚集,那么可以定义一个和应用无关的主键,按主键顺序插入行,最好使用AUTO_INCREMENT,避免使用随机并且范围很大的聚簇索引,这会使聚簇索引的插入变得完全随机,不仅花费时间更长,而且索引占用空间也会更大。
对于高并发的工作负载,在InnoDB中按主键顺序插入可能造成明显的争用,主键的上界会成为“热点”,因为插入都发生在这里,造成锁竞争,另一个热点可能是AUTO_INCREMENT锁机制,对于比较新的版本更改innodb_autoinc_lock_mode配置,可能会工作的更好。
本文出自 “phper-每天一点点~” 博客,请务必保留此出处http://janephp.blog.51cto.com/4439680/1310976