一种HBase表数据迁移方法的优化

1.背景调研：

目前存在的hbase数据迁移主要分如下几类：

一种HBase表数据迁移方法的优化

根据上图，可以看出：

其实主要分为两种方式：(1)hadoop层：因为hbase底层是基于hdfs存储的，所以可以通过把hdfs上的数据拷贝的方式来实现，即：DistCp。

(2)hbase层：主要是基于hbase数据层的

CopyTable:需要scan全表数据，效率比较低下

Export/Import:scan全表数据到文件然后再import其他集群上

Snapshot：通过快照的方式，只对元数据进行克隆，不拷贝实际数据，因此性能比较好

2．方案优化

基于hadoop层的数据拷贝是拷贝了表中的全部数据，而基于hbase层操作其中部分也是拷贝全表数据，当需要写部分列数据或者部分时间段数据的时候就会存在问题，而且一次性扫描全部数据，会对hbase性能影响很大，在此基础上，本文主要针对hbase表数据部分列数据迁移，以及对全表扫描的问题做了优化。

3.步骤

(1)选择需要迁出的hbase表

(2)输入需要迁移的列

(3)选择需要迁入的hbase表

(4)设置rowkey:字段需要为迁出的hbase表中的列或者rowkey

扫描表的数据时的优化处理：每次设定固定扫描行数N(N建议设置200-300间比较合适，切记一次性读取到内存中过多，会导致内存溢出)，每扫描一次向新表写入一次，接下来从上一次结束处开始扫，依次类推进行循环。当最后一次扫描到的数据小于N或者达到设置的rowkey即可停止扫描。

采用扫描一部分写入一部分的方式，解决一次性扫描全表的性能问题，同时也避免一次性取出太多数据，导致程序内存溢出等问题。

秒客网