背景：

开发一个根据标签的的范围圈定符合条件的所有用户的服务，并将其提供给营销部门使用。在随后的开发过程中我门发现已经有人做过这块，其文章中描述的服务与我们的需求及其相似。不过我们想要实现的是更为复杂的多条件查询。

摘抄：（以下为前辈的blog主要内容摘要，传送门）

本文主要内容是通过合理hbase 行键（rowkey)设计实现快速的多条件查询，所采用的方法将所有要用于查询中的列经过一些处理后存储在rowkey中，查询时通过rowkey进行查询，提高rowkey的利用率，加快查询速度。行键（rowkey)并不是简单的把所有要查询的列的值直接拼接起来，而是将各个列的数据转成整型（int)数据来存储。之后实现两个自定义的比较器（comparator)：一个是相等比较器，用于实现类似于SQL的多条件精确查找功能。

select * from table where col1='a' and col2='b'

另一个是范围比较器，用于实现类似于SQL语句

select * from table where col3 > '10' and col4<'100'

这样的范围查找功能。

当两个比较器配合使用再结合hbase的过滤器，以实现类似于下面这条SQL语句这样多条件的查询

select * from table where col1='a' and col2='b' and col3 > '10' and col4<'100'

---------------------

需求：

TPS800，亿级数据体量实现秒级响应。

解决思路：

服务的TPS我们完全不需要为hbase担心，只需要在响应效率上下足功夫即可。

提高效率的第一要务就是给服务所需要的Hbase表设计一个更加合适的RowKey。

遵从以下原则：（Hbase的Rowkey设计）

1.尽可能的将筛选条件放入RowKey中去。

2.尽可能将等值条件、固定条件、取值范围多样的条件靠前排。

3.尽可能压缩Rowkey长度。

将不能放入RowKey的字段放入列标识内，使用列过滤器进行筛选。

有以下几点需要注意：

1.一个字段的列过滤器逻辑关系「交集或并集」要清晰。

2.多个字段的过滤涉及到既有交集也有并集的情况，层级关系要明确。

3.涉及到数值比较的时候务必注意字段类型对于Hbase的差别。（Hbase原始数据类型）

（如果对过滤器不了解可以点击查看Hbase过滤器的使用。）

设计思路：

我们首先根据固定参数通过设定RowKey的startKey和endKey来缩小范围，使用RowFilter来进一步缩小数据集范围，使用列过滤器对范围字段进行筛选，最终获取到精确的用户集合。

逻辑图如下：

Hbase 多条件查询的解决思路

开发过程：

《略略略》，开发中遇到的雷点会在文末提及。

测试结果：

我们置入筛选条件，可以查询得到相应的数据集合。通过与hive查询到的数据量进行比较，结果一致可信。

响应效率：

数据量：11G

查询出结果集：25W左右

响应时间：2.3S

优化步骤：

此处仅提供思路，并未实现。

1.hbase表预分区

2.hbase表减除冗余字段，减小数据容量

3.二级索引

开发雷点：

1.数值比较器要确定hbase每个字段的存储类型。

2.使用startRow和endRow是务必要注意是否需要RowFilter进行过滤

3.经常变化的字段不要放入rowKey避免造成数据量持续过快增长

4.自定义比较器的添加需要重启hbase才会生效

秒客网