HBase核心模块介绍及基本概念介绍（HBase模式设计）

一、HBase与Hadoop之间的关系

Hadoop框架中的HDFS分布式文件系统为HBase提供了可靠的底层存储支持。

Hadoop框架中的MapReduce为HBase提供了高性能的计算能力。

二、HBase的核心功能模块

1.Client

Client是整个HBase系统的入口

客户端使用RPC协议与HMaster和RegionServer进行通信

对于管理类（表的增删）操作，Client与HMaster进行RPC通信

对于数据读写类操作Client与RegionServer进行RPC交互

客户端可以是多个，也可以以不同形式访问，如Java接口、HBase shell命令行、Avro等

2.Zookeeper

Zookeeper负责消息协调通信-------由雅虎公司开发出的

Zookeeper是一个高可用的分布式数据管理与系统协调框架。

Zookeeper底层基于Paxos算法的实现，使的该框架保证了分布式环境中数据的一致性。

HBase中Zookeeper实例负责协调工作{

-储存Hbase元数据信息。

-实时监控RegionServer

-储存所有Region的寻址入口

-保证HBase中只有一个HMaster节点（通过Zoookeeper的选举机制来选出HMaster）

}

3.HMaster

-管理用户对表的增删改查操作

-管理HRegionServer的负载均衡，调整Region分布

-在RegionSplit后，负责新Region的分配

-在HRegionServer停机后，负责失效

-HRegionServer上的Regions迁移

4.HRegionServer

-主要负责响应用户I/O，向HDFS读写数据，是HBase中最核心的模块。

-HRegionServer内部管理了一系列的HRegion对象

-每个HRegion对应了表中的一个Region

-HRegion中由多个Hstore组成

-每个Hstore对应了表中的一个ColumnFamily的存储。

store存储是HBase的存储核心，由两部分组成

-MemStore：用户写入的数据首先会放入MemStore，MemStore的大小为64MB

-StoreFiles:当MemStore满了以后会Flush成一个StoreFile（底层实现是HFile）

当Store File文件数量增长到一定阈值，会触发Compact合并操作，将多个StoreFiles合并成一个StoreFile，合并过程中会进行版本合并和数据删除

HBase其实只有增加数据，所有的更新和删除操作都是在后续的compact过程中进行的

三、HBase的使用场景

存储大量的数据（>TB）

需要很高的吞吐量（如京东商城或12306购票）

大规模数据集很好性能的随机访问（按列）

需要进行优雅的数据扩展

结构化和半结构化的数据

不需要全部的关系数据库特性，例如交叉列、交叉表，事务，连接等等。

四、HBase的经典案例

搜索引擎应用

爬虫持续不断的爬取新页面存储到HBase中

在整张表上使用MapReduce计算并生成索引，供网络搜索应用使用

用户发起网络搜索请求

网络搜索应用查询简历好的索引，或者直接从HBase得到单个文档

搜索结果直接提交给用户

五、HBase的基本概念

数据模型

数据逻辑模型

数据物理模型

逻辑模型的重要概念

Table--------表

Rowkey---------行键（类似关系型数据库的主键）

Column family------------列族/列簇（HBase中列族是一些列的集合）

Timestamp----------时间戳（每个时间戳对应不同的版本）

Cell----------------单元格（通过行键、列簇和列簇名、版本号来确定具体的一个单元格内容）唯一确定，无数据类型，全部是字节码形式

单元格的内容是不可再分割的字节数组

每个单元格保存着同一份数据的多个版本

不同时间版本的数据按照时间顺序倒序排序

事务特性ACID

传统SQL数据库通常都支持ACID的强事务机制

HBase NoSQL数据库仅提供对行级别的原子性保证。

-同时对同一个key下的数据进行两个操作，在实际执行的过程中会串行操作，保证每一个keyvalue对不会被破坏

-对同一行的所有列的操作是原子性的，对于该行的Put操作要么整体成功要么整体失败。

模式设计

数据库的模式设计不是一个新概念，系统都存在模式设计问题。只要称为数据库

HBase的模式结构包括表、Rowkey、列族、Timestamp（时间戳/时间版本）

模式是一个三维有序结构，表，Rowkey，列族三个维度确定一行数据

HBase模式设计过程中需要关注的问题

-表应该有多少个列族，列族使用什么数据，每个列族应该有多少列

-列名是什么，单元应该存储什么数据，每个单元存储多少个时间版本

-行键结构是什么，应该包含哪些信息。

Rowkey-行键设计

Rowkey是不可分割的字节数，按照字典排序由低到高存储在表中

Rowkey应该基于预期的访问模式来为Rowkey建模

Rowkey决定了访问HBase表时可以得到的性能

HBase只能在Rowkey上建立索引，在不清楚Rowkey的前提下访问表，可以使用扫描全表。

-原生HBase只支持Rowkey以字典顺序从小到大

-Rowkey=Integer.MAX_VALUE-Rowkey 转换为以字典顺序从大到小的排序

-Rowkey尽量散列Rowkey设计

-保证散列，就会保证所有的数据不是在一个Region上，避免读写时负载会集中在个别Region上

-Rowkey的长度尽量短

-如果Rowkey太长，存储开销增加，影响存储效率

ColumnFamily-列族定义

列族，是一些列的集合

-一个列族的所有成员都有着相同的前缀。

在物理上，列族的成员在文件系统上都存储在一起。

多个列族在执行flush和compaction时，造成很多IO负载

-Flush和compaction操作是针对一个Region的，当一个列族操作大量数据时会引发一个flush，那些不相关的列族也要进行flush，会造成很多没用的I/O负载。

-尽量在应用中使用一个列族

这里对大数据技术感兴趣或者想学习大数据的朋友，我整理了一套大数据的学习视频免费分享给大家，从入门到实战都有，大家可以加微信：Lxiao_28获取，还可以入微信群交流！（备注领取资料，真实有效）。

秒客网

HBase核心模块介绍及基本概念介绍（HBase模式设计）

相关文章