背景:
开发一个根据标签的的范围圈定符合条件的所有用户的服务,并将其提供给营销部门使用。在随后的开发过程中 我门发现已经有人做过这块,其文章中描述的服务与我们的需求及其相似。不过我们想要实现的是更为复杂的多条件查询。
摘抄:(以下为前辈的blog主要内容摘要,传送门)
本文主要内容是通过合理hbase 行键(rowkey)设计实现快速的多条件查询,所采用的方法将所有要用于查询中的列经过一些处理后存储在rowkey中,查询时通过rowkey进行查询,提高rowkey的利用率,加快查询速度。行键(rowkey)并不是简单的把所有要查询的列的值直接拼接起来,而是将各个列的数据转成整型(int)数据来存储。之后实现两个自定义的比较器(comparator):一个是相等比较器,用于实现类似于SQL的多条件精确查找功能。
select * from table where col1='a' and col2='b'
另一个是范围比较器,用于实现类似于SQL语句
select * from table where col3 > '10' and col4<'100'
这样的范围查找功能。
当两个比较器配合使用再结合hbase的过滤器,以实现类似于下面这条SQL语句这样多条件的查询
select * from table where col1='a' and col2='b' and col3 > '10' and col4<'100'
---------------------
需求:
TPS800,亿级数据体量实现秒级响应。
解决思路:
服务的TPS我们完全不需要为hbase担心,只需要在响应效率上下足功夫即可。
提高效率的第一要务就是给服务所需要的Hbase表设计一个更加合适的RowKey。
遵从以下原则:(Hbase的Rowkey设计)
1.尽可能的将筛选条件放入RowKey中去。
2.尽可能将等值条件、固定条件、取值范围多样的条件靠前排。
3.尽可能压缩Rowkey长度。
将不能放入RowKey的字段放入列标识内,使用列过滤器进行筛选。
有以下几点需要注意:
1.一个字段的列过滤器逻辑关系「交集或并集」要清晰。
2.多个字段的过滤涉及到既有交集也有并集的情况,层级关系要明确。
3.涉及到数值比较的时候务必注意字段类型对于Hbase的差别。(Hbase原始数据类型)
(如果对过滤器不了解可以点击查看Hbase过滤器的使用。)
设计思路:
我们首先根据固定参数通过设定RowKey的startKey和endKey来缩小范围,使用RowFilter来进一步缩小数据集范围,使用列过滤器对范围字段进行筛选,最终获取到精确的用户集合。
逻辑图如下:
开发过程:
《略略略》,开发中遇到的雷点会在文末提及。
测试结果:
我们置入筛选条件,可以查询得到相应的数据集合。通过与hive查询到的数据量进行比较,结果一致可信。
响应效率:
数据量:11G
查询出结果集:25W左右
响应时间:2.3S
优化步骤:
此处仅提供思路,并未实现。
1.hbase表预分区
2.hbase表减除冗余字段,减小数据容量
3.二级索引
开发雷点:
1.数值比较器要确定hbase每个字段的存储类型。
2.使用startRow和endRow是务必要注意是否需要RowFilter进行过滤
3.经常变化的字段不要放入rowKey避免造成数据量持续过快增长
4.自定义比较器的添加需要重启hbase才会生效