1、文件很大,不可能全部存储在内存中,所以要存在磁盘上
2、索引的组织结构要尽量减少查找过程中磁盘I/O的存取次数(为什么用B-/+Tree,还跟磁盘存取原理有关)
3、B+树所有的data域在叶子节点,一般来说都会进行一个优化,就是将所有的叶子节点用指针串起来,这样遍历叶子节点就能获得全部数据
二、什么是聚簇索引
像innodb中,主键的索引结构中,既存储了主键值,有存储了行数据,这种数据成为‘聚簇索引’
三、为什么MongoDB采用B树索引,而mysql用B+树做索引
b+树只有叶节点存放数据,其余节点用来索引,b-树是每个索引节点都会有data域
这就决定了B+树更适合用来存储外部数据,也就是所谓的磁盘数据
从mysql(innodb)的角度看,B+树是用来充当索引的,一般来说索引非常大,尤其是关系型数据库这种数据量大的索引能达到亿级别,
所以为了减少内存的占用,索引也会被存储在磁盘上
那么mysql是如何衡量查询效率的呢,磁盘IO次数,B-树的特定就是每层节点数目非常多,层数很少,目的就是为了减少磁盘IO次数,当查询数据的时候,
最好的情况就是很快找到目标索引,然后读取数据,使用B+树就能很好的完成这个目的,但是B-树的每个节点都有data域(指针),这无疑增大了节点大小,说白了增加了磁盘IO次数(磁盘IO一次读出的数据量大小是固定的,单个数据变大,每次读出的就少,IO次数增多,一次IO多耗时啊)
原因1:B+树除了叶子节点其他节点并不存储数据,节点小,磁盘IO次数就少
原因2:B+树所有的data域在叶子节点,一般来说都会进行一个优化,就是将所有的叶子节点用指针串起来,这样遍历叶子节点就能获得全部数据
至于MongoDB为什么使用B-树而不是B+树,可以从它的设计角度来考虑,它并不是传统的关系型数据库,而是以json格式作为存储的nosql,目的就是高性能,高可用,易扩展。首先它摆脱了关系模型,上面所述的优点需求就没那么强烈了,其次mysql由于使用B+树,数据都在叶节点上,每次查询都需要访问到叶节点,而MongoDB使用B-树,所有节点都有data域,只要找到指定索引就可以进行访问,无疑单词查询平均快于mysql(但侧面来看mysql至少平均查询耗时差不多)
总体来说,mysql选用B+树和MongoDB选用B-树还是以自己的需求来选择的