HBase数据模型(1)

时间：2021-09-23 05:42:31

HBase数据模型(1)
HBase数据模型(2)

1.0 HBase的特性

Table
- HBase以表（Table）的方式组织数据，数据存储在表中。
Row/Column
- 行（Row）和列（Column）共同组成HBase的表。
Column Family
- 列族（Column）将一列或者多列组织在一起，HBase的列必须属于某一个列族。
Cell
- 行和列的交叉点称为单元格（Cell），单元格是版本化的。
- 单元格的内容是列的值，是不可分割的字节数组，以二进制形式存储。
Rowkey
- 行键（Rowkey）可以将HBase表进行分区，行键也是唯一确定一行的标识。

2.0 HBase逻辑模型

2.1 HBase大部分特性和GoogleBigTable开源分布式数据库相同。

2.2 逻辑模型上是一个稀疏的、长期存储的、多维度的和排序的映射表，表中的每一行可以有不同的列。

2.3 HBase最基本的单位是列，一列或者多列构成了行，行有行键（RowKey），每一行的行键都是唯一的，相同行键的插入操作被认为是同一行操作。

2.4 HBase中一个表有多行，每行都有多列，列中的值有多个版本，每个版本称为一个单元格。每个单元存储的是不同时刻该列的值。

2.5 列名表示为 “列族前缀+修饰符”的方式，如（anchor:cssnsi.com和anchor:my.look.ca其中，列族是anchor，修饰符分别是cssnsi.com和my.look.ca ）

3.0 HBase物理模型

3.1 在物理上，表是按列分开存储的。HBase的列是按列族分组的，HFile是面向列的，存放行的不同物理文件，一个列族的数据存放在多个HFile中，最重要的是一个列族的数据会被用一个Region管理，物理上存放在一起。

3.2 Region是管理HFile的一种机制。

4.0 HBase数据模型的操作

主营包含4个操作Get、Put、Scan和Delete。因为创建HTable实例需要扫描.META.表，会增加代价，所以用户最好只创建一次HTable是咧，而且每个线程创建一个，可以使用HTablePool类来复用多个HTable实例。

4.1 读Get

从客户端获取已存取的数据
get()方法默认一次取回改行全部列的数据，可以限定只取某个列族对于的列的数据。
可以从服务器获取特定的返回值。

4.2 写Put

HBase没有Update操作，通过Put对数据进行修改
Put向表增加新行（新的key）或者更新行（key已经存在）。
对于数千次RPC操作可以显示打开缓冲区选项，进行一次性写入。

4.3 扫描Scan

Scan允许多行特定属性迭代，可以指定starRow参数来定义扫描读取HBase表的起始行键，同时可选stopRow参数来限定到何处停止。

4.4 删除Delete

HBase的Delete操作可以指定删除某个列族或者某个列，或者指定某个时间戳，删除比这个时间早的数据。

HBase的Delete操作并不是真正地从磁盘上删除数据，而是通过创建墓碑（tombstones）标志进行处理。这些墓碑标记的值和小于该时间版本的单元格在大合并（major compact）时被清楚。
HBase数据模型(1)
HBase数据模型(2)

标签：数据数据存储模型分布式 hbase

相关文章

