一、HASH算法是怎么实现作为索引的?
1、表结构和存储数据内容如图中所示,cl1是索引,cl2是内容。所谓的hash索引,就是将索引做一次hash计算,放入到索引树中,再将cl2所对应的磁盘位置指针放入到hash值得data节点,最终效果图如下:
2、说白了,hash索引就是存储了索引字段得hash值和数据所在磁盘文件指针,如果此时来了一句sql语句
select * from tab where cl1 = 1 那么mysql会怎么去执行这条sql语句:
a、将cl1 = 1 做一次hash运算得到hash为123
b、拿到hash为123在索引中去找123的节点
c、节点所对应的数据就是数据内容所在磁盘文件的指针
d、通过一次磁盘I/O得到所有的内容,即cl1= 1,cl2=张三。
e、最后返回结果。
二、HASH索引在哪些情况下效率低下?
1、在做范围查询的时候,为什么范围查询就不能使用hash索引呢? 因为mysql在执行范围查询的时候,需要多次的去做磁盘I/O,磁盘I/O的耗时是非常大的,所以使用hash索引作为范围查询是不可取的;
2、hash索引数据并不是按照索引列的值顺序存储的,所以也就无法用于排序;
3、出现hash冲突时候,存储引擎需要遍历所有的行指针,逐行对比,最后取出匹配的行内容;
4、重复出现的内容建议不要使用HASH索引,减少Hash冲突。