创建高性能索引
索引(在MySQL中也叫key(键))是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能非常关键。
索引基础
在MySQL中,存储引擎用类似的方法使用索引,其现在索引中找到对应的值,然后根据匹配的索引记录找到对应的数据行。举例:
select * from user where email_id = 6
如果在email_id
上有索引的话,则MySQL将使用索引找到email_id
为5的行。现在索引上查找然后在返回索引对应的数据行。
索引可以包含一个或者多个列的值。如果索引包含多个列,那么列的顺序也十分重要,因为MySQL只能高效地使用索引的最左前缀列。
索引的类型
B-Tree索引
- NDB使用T-Tree存储索引、InnoDB使用B+Tree存储索引。
- MyISAM使用前缀压缩技术使得索引更小,InnoDB则按照原数据格式进行存储。
- MyISAM索引通过数据的物理位置引用被索引的行,InnoDB则根据主键引用被索引的行。
B-Tree通常意味着所有的值都是按顺序存储的,井且每一个叶子页到根的距离相同。下图展示了B-Tree索引的抽象表示,大致反映了InnoDB索引是如何工作的。MyISAM使用的结构有所不同,但基本思想是类似的。
B-Tree索引能够加快访问数据的速度,因为存储引擎不再需要进行全表扫描来获取需要的数据,取而代之的是从索引的根节点(图示并未画出)开始进行搜索。根节点的槽中存放了指向子节点的指针,存储引擎根据这些指针向下层查找。通过比较节点页的值和要查找的值可以找到合适的指针进入下层子节点,这些指针实际上定义了子节点页中值的上限和下限。最终存储引擎要么是找到对应的值,要么该记录不存在。
叶子节点比较特别,它们的指针指向的是被索引的数据,而不是其他的节点页(不同引擎的“指针”类型不同)。上图中仅绘制了一个节点和其对应的叶子节点,其实在根节点和叶子节点之间可能有很多层节点页。树的深度和表的大小直接相关。
B-Tree对索引列是顺序组织存储的,所以很适合查找范围数据。例如,在一个基于文本域的索引树上,按字母顺序传递连续的值进行查找是非常合适的,所以像“找出所有以I到K开头的名字”这样的查找效率会非常高。
假设有如下数据表:
CREATE TABLE People (
last_name VARCHAR (32) NOT NULL,
first_name VARCHAR (32) NOT NULL,
dob date NOT NULL,
gender enum ('m', 'f') NOT NULL,
KEY (last_name, f irst_name, dob)
)
对于表中的每一行数据,索引中包含了last_name、first_name和dob列的值,下图显示了该索引是如何组织数据的存储的。
请注意,索引对多个值进行排序的依据是 CREATE TETABLE
语句中定义索引时列的顺序。看一下最后两个条目,两个人的姓和名都一样,则根据他们的出生日期来排列顺序。
可以使用B-Tree索引的查询类型。B-Tree索引适用于全键值、键值范围或键前缀查找。其中键前缀查找只适用于根据最左前缀的查找。前面所述的索引对如下类型的查询有效。
-
全值匹配
全值匹配指的是和索引中的所有列进行匹配,例如前面提到的索引可用于查找姓名为CubaAllen、出生于1960-01-01的人。
-
匹配最左前缀
前面提到的索引可用于查找所有姓为Allen的人,即只使用索引的第一列。匹配列前缀也可以只匹配某一列的值的开头部分。例如前面提到的索引可用于查找所有以J开头的姓的人。这里也只使用了索引的第一列。
-
匹配范围值
例如前面提到的索引可用于查找姓在Allen和Barrymore之间的人。这里也只使用了索引的第一列。
-
精确匹配到某一列并范围匹配另外一列
前面提到的索引也可用于查找所有姓为Allen,并且名字是字母K开头(比如Kim、Karl等)的人。即第一列last_name全匹配,第二列first_name范围匹配。
-
只访问索引的查询
B-Tree通常可以支持“只访问索引的查询”,即查询只需要访问索引,而无须访问数据行。
因为索引树中的节点是有序的,所以除了按值查找之外,索引还可以用于查询中的ORDER BY
操作(按顺序查找)。一般来说,如果B-Tree可以按照某种方式查找到值,那么也可以按照这种方式用于排序。所以,如果ORDER BY
子句满足前面列出的几种查询类型,则这个索引也可以满足对应的排序需求。
下面是一些关于B-Tree索引的限制:
如果不是按照索引的最左列开始查找,则无法使用索引。例如上面例子中的索引在每用于查找名字为Bill的人,也无法查找某个特定生日的人,因为这两列都不是最左数据列。类似地,也无法查找姓氏以某个字母结尾的人。
不能跳过索引中的列。也就是说,前面所述的索引无法用于查找姓为Smith并且在某个特定日期出生的人。如果不指定名(first_name),则MySQL只能使用索引的第一列。
如果查询中有某个列的范围(
like between > <
都算范围查询)查询,则其右边所有列都无法使用索引优化查找。例如有查询WHERE lastname='Smith’AND firstname like '%J%'AND dob=’1976-12-23'
,这个查询只能使用索引的前两列,因为这里的like是一个范围条件(但是服务器可以把其余列用于其他目的)。如果范围查询列值的数量有限,那么可以通过使用多个等于条件来代替范围条件。
所以前面提到的索引列的顺序是多么的重要:这些限制都和索引列的顺序有关。在优化性能的时候,可能需要使用相同的列但顺序不同的索引来满足不同类型的查询需求。
也有些限制并不是B-Tree本身导致的,而是MySQL优化器和存储引擎使用索引的方式导致的,这部分限制在未来的版本中可能就不再是限制了。
哈希索引
哈希索引基于哈希表实现。只有精确匹配索引所有列的査询才有效。对于每一行数据,存储引擎都会对所有的索引列计算一个哈希码(hash code),哈希码是一个较小的值,并且不同键值的行计算出来的哈希码也不一样。哈希索引将所有的哈希码存储在索引中,同时在哈希表中保存指向每个数据行的指针。
MySQL中,只有Memory引擎显式支持哈希索引。这也是Memory引擎表的默认索引类型,Memory引擎同时也支持B-Tree索引。值得一提的是,Memory引擎是支持非唯一哈希索引的,这在数据库世界里面是比较与众不同的。如果多个列的哈希值相同,索引会以链表的方式存放多个记录指针到同一个哈希条目中。
例:
CREATE TABLE testhash (
fname VARCHAR(50) NOT NULL,
lname VARCHAR(50) NOT NULL,
KEY USING HASH(fname)
)ENGINE=MEMORY;
表中包含如下数据:
fname | lname
Arjen | Lentz
Baron | Schwartz
Peter |Zaitsev
Vadim | Tkachenko
假设索引使用假想的哈希函数f(),它返回下面的值(都是示例数据,非真实数据):
f(,Arjen')= 2323
f('Baron')= 7437
f('Peter')= 8784
f('Vadim1)= 2458
则哈希索引的数据结构如下:
槽(Slot) 值(Value)
2323 指向第1行的指针
2458 指向第4行的指针
7437 指向第2行的指针
8784 指向第3行的指针
注意每个槽的编号是顺序的,但是数据行不是。现在,来看如下査询:
mysql> SELECT lname FROM testhash WHERE fname='Peter';
MySQL先计算Peter
的哈希值,并使用该值寻找对应的记录指针。因为f(Peter)=8784,所以MySQL在索引中查找8784,可以找到指向第3行的指针,最后一步是比较第三行的值是否为Peter
,以确保就是要査找的行。
因为索引自身只需存储对应的哈希值,所以索引的结构十分紧凑,这也让哈希索引査找的速度非常快。然而,哈希索引也有它的限制:
- 希索引只包含哈希值和行指针,而不存储字段值,所以不能使用索引中的值来避 免读取行。不过,访问内存中的行的速度很快,所以大部分情况下这一点对性能的影响并不明显。
- 哈希索引数据并不是按照索引值顺序存储的,所以也就无法用于排序。
- 哈希索引也不支持部分索引列匹配査找,因为哈希索引始终是使用索引列的全部内 容来计算哈希值的。例如,在数据列(A,B)上建立哈希索引,如果查询只有数据列A, 则无法使用该索引。
- 哈希索引只支持等值比较査询,包括=、IN()、<=> (注意 <> 和 <=> 是不同的操作)。 也不支持任何范围査询,例如WHERE price > 100。
- 访问哈希索引的数据非常快,除非有很多哈希冲突(不同的索引列值却有相同的哈希值)。当出现哈希冲突的时候,存储引擎必须遍历链表中所有的行指针,逐行进行比较,直到找到所有符合条件的行。
- 如果哈希冲突很多的话,一些索引维护操作的代价也会很高。例如,如果在某个选择性很低(哈希冲突很多)的列上建立哈希索引,那么当从表中删除一行时,存储引擎需要遍历对应哈希值的链表中的每一行,找到并删除对应行的引用,冲突越多,代价越大。
因为这些限制,哈希索引只适用于某些特定的场合。而一旦适合哈希索引,则它带来的 性能提升将非常显著。举个例子,在数据仓库应用中有一种经典的“星型” schema,需 要关联很多査找表,哈希索引就非常适合査找表的需求。
除了 Memory引擎外,NDB集群引擎也支持唯一哈希索引,且在NDB集群引擎中作用 非常特殊,但这不属于本书的范围。
InnoDB引擎有一个特殊的功能叫做“自适应哈希索引(adaptive hash index)”。当 InnoDB注意到某些索引值被使用得非常频繁时,它会在内存中基于B-Tree索引之上再 创建一个哈希索引,这样就让B-Tree索引也具有哈希索引的一些优点,比如快速的哈希査找。这是一个完全自动的、内部的行为,用户无法控制或者配置,不过如果有必要,完全可以关闭该功能。
创建自定义哈希索引。如果存储引擎不支持哈希索引,则可以模拟像InnoDB —样创建哈希索引,这可以享受一些哈希索引的便利,例如只需要很小的索引就可以为超长的键创建索引。
空间数据索引
- MyISAM支持空间索引,可以用作地理数据的存储。
- 和B-Tree索引不同,这类索引无需前缀查询;
- 空间索引会从所有维度来索引数据,查询时可以有效的使用任意维度来组合查询;
- GIS对MySQL支持的并不好,建议使用postgre的PostGIS。
全文索引
- 一种特殊类型的索引,它查找的是文本中的关键词,而不是直接比较索引中的值;
- 全文搜索涉及更多的细节,包括停用词、词干和复数、布尔搜索等;
- 在相同的列上同时创建全文索引和基于值的B-Tree索引不会有冲突;
- 全文索引适用于MATCH AGAINST操作,而不是普通的WHERE条件操作;
其它索引类别
如分形树索引,聚簇索引,覆盖索引等
索引的优点
- 索引大大减少了服务器需要扫描的数据量;
- 索引可以帮助服务器避免排序和临时表;
- 索引可以将随机I/O变为顺序I/O;
注意:索引是最好的解决方案吗?
索引并不总是最好的工具。总的来说,只有当索引帮助存储引擎快速查找到记录带来的好处大于其带来的额外工作时,索引才是有效的。对于非常小的表,大部分情况下简单的全表扫描更高效。对于中到大表,索引就非常有效。但对于特大型的表,建立和使用索引的代价将随之增长。这种情况下,则需要一种技术可以直接区分出需要查询的一组数据,而不是一条记录一条记录的匹配。例如可以使用分区技术。
参考资料:
高性能MySQL(第3版)
备注:
转载请注明出处:http://blog.csdn.net/wsyw126/article/details/70147918
作者:WSYW126