MySQL、HBase、ES的特点和区别-Hbase

基本概念

HBase是一个分布式、可扩展、高性能的列式存储系统，基于Google的Bigtable设计。它是Hadoop生态系统的一部分，可以与HDFS、MapReduce、ZooKeeper等组件集成。HBase的主要特点是提供低延迟的随机读写访问，支持大规模数据的存储和管理。
在这里插入图片描述

HBase核心概念：

HFile：HBase的底层存储结构，是一个自平衡的B+树。HFile可以存储多个表的数据，并支持随机读写访问。HFile的索引功能是基于B+树的索引实现的，可以提高查询性能。
MemStore：HBase的内存存储结构，是HFile的基础。MemStore是一个有序的键值对缓存，每次写入数据时，数据首先写入MemStore，然后定期刷新到HFile。MemStore的搜索功能是基于内存中的数据实现的，可以提高查询性能。
Bloom过滤器：HBase使用Bloom过滤器来减少不必要的磁盘访问。Bloom过滤器是一种概率数据结构，可以用来判断一个元素是否在一个集合中。Bloom过滤器可以提高查询性能，减少磁盘I/O。
索引文件：HBase为每个表创建一个索引文件，用于存储表中的所有列名。索引文件可以帮助查询引擎快速定位需要查询的列，提高查询性能。
搜索引擎：HBase提供了一个基本的搜索引擎，可以用来实现基本的模糊查询和范围查询。搜索引擎使用了一些基本的搜索算法，如词法分析、词汇分析、排序等。

HRegion是HBase中的基本存储单元，负责存储一部分行键(Row Key)对应的数据。HRegion内部由多个HStore组成，每个HStore存储一部分列族(Column Family)的数据。MemStore中存储的是用户写入的数据，一旦MemStore存储达到阈值时，里面存储的数据就会被刷新到新生成的StoreFile中(底层是HFile)，该文件是以HFile的格式存储到HDFS上，具体如图4所示。

HRegion支持自动分区：
HBase中的一个表，刚创建时，只有一个HRegion，随着数据量递增，达到阈值时，等分成两个HRegion，分布在不同的HRegionServer结点上。阈值由属性hbase.hregion.max.filesize指定，默认10G

在这里插入图片描述
HBase是一个分布式系统，这点跟MySQL不同，它的数据是分散不同的server上，每个table由一个或多个region组成，region分散在集群中的server上，一个server可以负责多个region。

这里有一点需要特别注意：table中各个region的存放数据的rowkey（主键）范围是不会重叠的，可以认为region上数据基于rowkey全局有序，每个region负责它自己的那一部分的数据。

索引原理

Hbase写流程：
在这里插入图片描述
WAL是保存在HDFS上的持久化文件。数据到达 Region 时先写入WAL，然后被加载到MemStore中。这样就算Region宕机了，操作没来得及执行持久化，也可以再重启的时候从WAL加载操作并执行。跟Redis的AOF类似。

Client 先访问 zookeeper，访问 /hbase/meta-region-server 获取 hbase:meta 表位于哪个 Region Server。
访问对应的 Region Server，获取 hbase:meta 表，根据读请求的 namespace:table/rowkey，查询出目标数据位于哪个 Region Server 中的哪个 Region 中。并将该 table 的 Region 信息以及 meta 表的位置信息缓存在客户端的 meta cache，方便下次访问。
与目标 Region Server 进行通讯。
将数据顺序写入（追加）到 WAL。
将数据写入对应的 MemStore，数据会在 MemStore 进行排序。
向客户端发送 ack，此处可看到数据不是必须落盘的。
等达到 MemStore 的刷写时机后，将数据刷写到 HFile
在web页面查看的时候会随机的给每一个Region生成一个随机编号。

Hbase读流程：
在这里插入图片描述

Client 先访问 ZooKeeper，获取 hbase:meta 表位于哪个 Region Server。
访问对应的 Region Server，获取 hbase:meta 表，根据读请求的 namespace:table/rowkey，查询出目标数据位于哪个 Region Server 中的哪个 Region 中。并将该 table 的 region 信息以及 meta 表的位置信息缓存在客户端的 meta cache，方便下次访问。
与目标 Region Server 进行通讯。
分别在 Block Cache(读缓存)，MemStore 和 Store File(HFile)中查询目标数据，并将查到的所有数据进行合并。此处所有数据是指同一条数据的不同版本(time stamp)或者不同的类型(Put/Delete)。
将从文件HFile中查询到的数据块(Block，HFile 数据存储单元，默认大小为 64KB)缓存到 Block Cache。
将合并后的最终结果，然后返回时间最新的数据返回给客户端。

性能调优

1，HBase预分区：

HBase表在刚刚被创建时，只有1个分区（region），当一个region过大（达到hbase.hregion.max.filesize属性中定义的阈值，默认10GB）时，表将会进行split，分裂为2个分区。表在进行split的时候，会耗费大量的资源，频繁的分区对HBase的性能有巨大的影响。

HBase提供了预分区功能，即用户可以在创建表的时候对表按照一定的规则分区。减少由于region split带来的资源消耗。从而提高HBase的性能。

2，定期进行Major Compaction：

HBase中的数据是以StoreFile的形式存储的，随着数据的不断写入，StoreFile的数量会逐渐增加，影响查询效率。

优化方案
定期执行Major Compaction操作，将多个小文件合并成一个大文件，减少StoreFile的数量。

秒客网

MySQL、HBase、ES的特点和区别-Hbase

基本概念

索引原理

性能调优

相关文章