HBase Block Cache（块缓存）

Block Cache

HBase提供了两种不同的BlockCache实现，用于缓存从HDFS读出的数据。这两种分别为：

默认的，存在于堆内存的（on-heap）LruBlockCache
存在堆外内存的（off-heap）BucketCache

下面我们会讨论每种方法的优点和缺点、如何对两种方式做选择，以及这两种类型的相关配置。

Cache Choices

LruBlockCache是最初始的实现，并且全部存在Java堆内存中。BucketCache是另一个选择，主要用于将block cache的数据存在off-heap（堆外内存），不过BlockCache也可以作为一种文件备份式的缓存。

当开启了BucketCache后，便启用了两级缓存的系统。以前我们会用“L1”和“L2”来描述这两个等级，但是现在这个术语已经在hbase-2.0.0后被弃用了。现在“L1” cache 直接指的是LruBlockCache，“L2”指的是一个off-heap的BucketCache。（hbase-2.0.02之后）当BucketCache启用后，所有数据块（DATA block）会被存在BucketCache 层，而meta 数据块（INDEX 以及BLOOM块）被存在on-heap的LruBlockCache中。管理这两层缓存，以及指示数据块如何在它们之间移动的策略，由CombinedBlockCache完成。

Cache的常规配置

除了缓存它自己的实现以外，我们也可以设置一些常规的配置选项，用于控制cache的行为。具体可以参考CacheConfig的文档：

https://hbase.apache.org/devapidocs/org/apache/hadoop/hbase/io/hfile/CacheConfig.html

在设置或修改了任何属性后，需要重启HBase集群以让配置文件生效。若是遇到异常，可以进一步查看HBase中的报错。

LruBlockCache的设计

LruBlockCache是一个LRU缓存，包括三种优先级，以适应于于：scan-resistance 以及 in-memory ColumnFamilies场景。三种优先级分别为：

Single Access 优先级：当一个数据块第一次从HDFS读取时，它会具有这种优先级，并且在缓存空间需要被回收（置换）时，它属于优先被考虑范围内。它的优点在于：一般被扫描（scanned）读取的数据块，相较于之后会被用到的数据块，更应该被优先清除
Multi Access优先级：如果一个数据块，属于Single Access优先级，但是之后被再次访问，则它会升级为Multi Access优先级。在缓存里的内容需要被清除（置换）时，这部分内容属于次要被考虑的范围
In-memory Access优先级：如果数据块族被配置为“in-memory”，则会具有这种优先级，并且与它被访问的次数无关。HBase Catalog便是被配置的这个优先级。在缓存里的内容需要被置换时，这部分内容属于最后被考虑的范围。若是需要将一个列族标注为此优先级：
1. 在Java中可以调用: HColumnDescriptor.setInMemory(true);
2. 在hbase shell 中创建或修改一个表时，可以使用 IN_MEMORY => true，例如：create ‘t’, {NANME => ‘f’, IN_MEMORY => ‘true’}

若是想了解更具体的信息，可以参考LruBlockCache 源码

LruBlockCache 的使用

一般来说，BlockCache在所有用户表中默认是开启的，也就是说，任何的读操作均会加载LRU Cache。这个方案可能适用于大部分场景，但是，如果需要达到更优的performance，仍需要做一些调整。其中一个很重要的概念是working set size（或WSS），它的意思是：为了解决一个问题所需要的资源（内存）大小。对于一个网站来说，这个便是在短时间内响应请求所需要的数据量。计算在HBase中到底有多少内存可供cache的方法为：

number of region servers * heap size * hfile.block.cache.size * 0.99

block.cache的默认值是0.4，表示可用堆内存的40%。最后一个值（99%）是：在缓存内存收回开始后，默认可被回收的比率（这里若是值是100%，则不太现实，因为在置换时也会有新块写入？）。下面是使用这个公式的一些例子：

一个region server，设置了1GB的堆内存，使用默认的block.cache参数，则会有405MB的block cache可用
20个region server，设置了8GB大小的堆内存，使用默认的block.cache参数，则会有63GB大小的block cache可用（20 × 8 × 0.4 × 0.99）
100 个region server，设置了24GB 大小的堆内存，使用block.cache=0.5，则会有1.16TB的可用block cache

当然，被存在block cache中的并不仅仅只是你的数据，下面是其他一些需要被考虑到的地方：

Catalog 表：hbase:meta 表被强制载入block cache，并且具有in-memory 优先级，也就是说，它的内容几乎很少会被从缓存移除。（根据regions的数量，hbase:meta 表会占据一小部分内存）
HFile 索引：HFile是HBase用于在HDFS上存储数据数据文件格式。它包含多级索引，可以让HBase在不需要读入整个文件的情况下找到目标数据。决定这些索引大小的因素是：数据块大小（默认是64KB），你的key大小，以及存储数据的量。对于大数据集来说，一个region server 的cache中包含大约1GB的索引大小也属正常，尽管不是所有的索引均会被放入cache（因为LRU会将那些不常用的索引移除）。
Keys：The values that are stored are only half the picture, since each value is stored along with its keys (row key, family qualifier, and timestamp).
Bloom Filter：如HFile的索引一样，那些数据结构（若是在enabled之后），会被存在LRU

当前来说，衡量HFile索引以及Bloom filter 大小的一种推荐的方法是：查看region server UI，并查看相关指标。对于键来说，获取抽样时，可以使用HFile的命令行工具，并查看键的平均大小。从HBase 0.98.3以后，可以在UI界面中的Block Cache部分，查看BlockCache的详细状态以及指标。

一般来说，如果当前可用内存并不足以支持WSS，则不建议使用block caching。举个例子：假设在集群中一共有40GB的可用内存分布于各个region server的block cache，但是你需要处理1TB的数据，则这种场景不太适合使用block caching。其中一个原因是：回收（置换）缓存会打乱内存分布，并触发更多本没必要的垃圾回收。下面是两个场景：

完全随机的读模式：这种场景一般是，在短时间内，应用几乎不会重复读取表中同一行的内容，所以在这种情况下，命中cache的机会基本接近于0。在这个表中设置block caching属于浪费内存以及CPU的时间片。不仅如此，它还会产生更多的JVM垃圾回收事件。
Mapping a table：比如在某个MapReduce任务中，任务的输入是一张表。每一行仅会被读取一次，所以就没必要将这些数据放入block cache。在Java中，Scan对象有一个关闭block cache的功能：setCaching（设置为false）。当然，如果你需要快速的随机读访问，也可以在这个表上保持开启block caching功能。

仅缓存META数据块（DATA 数据块在fscache）

一个有趣的设置是：仅缓存 META数据块，每次在读取数据时，均去访问DATA数据块。在这种情况下如果DATA数据块适应于fscache，且当访问数据的操作在一个很大的集群中完全是随机时，这种设置是可取的。若要开启这个设置，可以直接修改表：对某个列族，设置BLOCKCACHE => ‘false’。这样就关闭了对这个列族的BlockCache。不过，META数据块的block caching无法被关闭，即使它的被关闭了，META数据块也仍会被载入缓存。

堆外（Off-heap）Block Cache

如何开启BucketCache

一个通常的部署BucketCache方式是通过一个管理类，它设置两级缓存：一个堆内的缓存，由LruBlockCache实现；以及第二层缓存，由BucketCache实现。默认管理的类为CombinedBlockCache。简单的说，这个类实现的缓存规则是：将meta数据块（INDEX以及BLOOM）放在堆内缓存（LruBlockCache层），而将DATA数据放入BucketCache层。

在HBase-2.00 版本之前

在hbase 2.00 版本以前，从BucketCache取数据时都会比较慢（对比使用堆内存的LruBlockCache）。然而，从表现来看，读操作的延迟时间基本趋于稳定。因为在使用BucketCache时，会有较少的垃圾回收（BucketCache管理BlockCache的分配，而不是GC）。如果BucketCache被部署为堆外（off-heap）模式，则这部分内存根本不会被GC管理。这就是为什么你在2.0.0版本之前的HBase使用BucketCache时，延迟时间基本趋于稳定，并可以减轻GC以及堆内存碎片的影响，这样可以安全的使用更多内存。如果你希望缓存不被GC管理，可以使用BucketCache。

在2.0.0版本前，在配置了BucketCache后，可以减少LruBlockCache置换的影响。所有数据以及index块首先被缓存在L1。当L1中发生缓存清除（置换）时，被置换出的数据块会被移动到L2。在Java中，可以通过HColumnDescriptor.setCacheDataInL1(true)设置cacheDataInL1；在hbase shell中可以设置CACHE_DATA_IN_L1 为true，例如：create ‘t1’, {NamE => ‘t1’, CONFIGURATION => {CACHE_DATA_IN_L1 => ‘true’}}

HBase-2.0.0 版本之后

HBASE-11425改变了HBase的数据读取路径，实现了直接从堆外读取数据。off-heap的延迟可以接近于on-heap的延迟，因为off-heap并不会引起GC操作。

从HBase 2.0.0 开始，L1与L2的概念便被弃用。当BucketCache启用时，数据块（DATA blocks）会一直保存于BucketCache；INDEX/BLOOM块会保存于LRUBlockCache的堆内存。cacheDetaInL1 的配置也被移除。

BucketCache的块缓存可以被部署为off-heap，文件，或mmaped文件这三种模式（通过hbase.bucketcache.ioengine配置）。设置为offheap会让BucketCache在堆外内存管理block cache。设置为file:PATH_TO_FILE（EMR里默认为files:/mnt/hbase/bucketcache），会直接让BucketCache使用文件缓存（如果卷是SSD之类的高速盘的话，会比较有用）。从2.0.0 开始，使用多个文件路径也是可以的。若是在需要较大Cache 的场景下，这个配置很有用。在设置时的基本配置为：files:PATH_TO_FILE1, PATH_TO_FILE2, PATH_TO_FILE3。BucketCache可以也可以配置为使用一个mmapped文件。配置ioengine为mmap:PATH_TO_FILE即可。

在hbase 2.0.0之前，也可以设置多级缓存（绕过CombinedBlockCache策略），将BucketCache设置为严格的L2 缓存，LruBlockCache为L1缓存。在这种配置中，设置 hbase.bucketcache.combinedcache.enable 为false即可。在这种模式下，当L1缓存内容被清除（置换）时，会将置换出的块放入L2。当一个块被缓存时，首先被缓存在L1。当我们去查询一个缓存块时，首先在L1查，若是没找到，则再搜索L2。我们将此部署方法称为Raw L1+L2。需要注意的是，这个L1+L2模式已经在hbase 2.0.0 以后被移除了。当BucketCache被使用时，它会严格的将DATA块缓存放入BucketCache，而INDEX/META块则被放入LruBlockCache。

其他BucketCache的配置包括：指定cache被持久化的路径以在重启后仍存在、写cache的线程数量，等等。在检查它是否开启时，可以查看日志内容，会包含cache的设置；它会详细的记录BucketCache被部署的信息。也可以通过UI，它可以看到详细的cache层级以及它们的配置。

BucketCache示例配置

这个例子提供了为一个4GB堆外BucketCache、1GB堆内缓存的配置。配置过程在RegionServer上实施。

设置hbase.bucketcache.ioengine，并设置 hbase.bucketcache.size > 0，开启CombinedBlockCache。这里我们假设当前RegionServer配置了5GB的堆内存（HBASE_HEAPSIZE=5g）

首先，编辑RegionServer的hbase-env.sh 文件，并设置HBASE_OFFHEAPSIZE，需要高于所需的off-heap的大小。在这个案例中需要的off-heap为4GB，所以我们设置此值为5GB。这里4GB被用于我们的off-heap缓存，剩余的1G被其他用户使用（因为会有其他用户也会使用off-heap内存；例如RegionServer中的DFSClient会使用堆外内存，参考下面的Direct Memory Usage in HBase）。HBASE_OFFHEAPSIZE=5G
然后，在hbase-site.xml 下设置以下配置：

<name>hbase.bucketcache.ioengine</name>

<value>offheap</value>

</property>

<name>hfile.block.cache.size</name>

</property>

<name>hbase.bucketcache.size</name>

</property>

重启集群，若出现任何问题，检查日志

上面的配置文件中，我们设置了BucketCache为4G，配置on-heap LruBlockCache为20%的RegionServer的堆内存（0.2 × 5G = 1G）。

HBASE-10641以后，HBase 0.98及以后的版本，引入了可以为BucketCache配置多个bucket以及它们的大小的功能。配置多个bucket sieze，可以设置hbase.bucketcache.bucket.sizes为一系列块大小设置，从小到大。它的目的是根据你数据访问模式，优化bucket sizes。下面是一个示例配置，大小从4096到8192：

<name>hbase.bucketcache.bucket.sizes</name>

</property>

Direct Memory Usage in HBase

默认最大可以使用的direct memory因JVM的不同而不同。传统下是64M，或者通过直接分配堆内存（-Xmx），或完全没有限制（如JDK7）。HBase服务器使用direct memory，特别是short-circuit reading（读数据不经过DataNode，客户端直接读文件），RegionServer上的DFSclient会分配direct memory buffers。DFSClient会使用的内存大小并不容易量化；它是由：打开的HFile文件数量 × hbase.dfs.client.read.shortcircuit.buffer.size 决定。hbase.dfs.client.read.shortcircuit.buffer.size在HBase中设置为128k（参考hbae-default.xml默认配置）。如果需要使用off-heap block caching，则需要使用到直接内存（direct memory）。在RPC Server中，也会使用一个ByteBuffer池，从hbase 2.0.0开始，这些缓冲区为off-heap ByteBuffers。在启动JVM时，确保 -XX:MaxDirectMemorySize 的设置（在hbase-env.sh）考虑到了off-heap BlockCache（hbase.bucketcache.size）、DFSClient的使用量，以及RPC端的ByteBufferPool的最大总和大小。Direct memory 的大小应该比 off-heap BlockCache + max ByteBufferPool 的大小更大。在一般情况下，可以在基于所需的direct memory大小情况下，额外再分配多1-2GB的空间。Direct memory属于Java进程堆的一部分，与对象堆（由-Xmx分配）分离。MaxDirectMemorySize的大小必须小于物理的RAM大小，并且小于所有可用的RAM大小（由于内存的其他用处，以及系统的限制）。

你可以在UI中的Server Metrics: Memory 栏看到一个RegionServer配置的内存量（on-heap以及off-heap/direct memory）。这部分数据也可以通过JMX获取。

BlockCache 压缩

HBASE-11331引入了lazy BlockCache decompression。在开启此功能后，DATA（以及ENCODED_DATA）数据块会以它们on-disk的形式缓存到BlockCache。与默认的模式不同点在于：默认情况下，在缓存一个数据块时，会先解压缩、解密，然后存入缓存（因为数据块是从HDFS取）。而lazy BlockCache decompression 直接将数据块存入缓存。

如果一个RegionServer存储的数据过多，无法适当的将大部分数据放入缓存，则开启这个功能（使用SNAPPY压缩）后，实验证明：可以提升50%的throughput，30%的平均延迟上升，增加80%垃圾回收，以及2%的整体CPU负载。

对于一个RegionServer，如果它的数据量已经适合cache的大小，或者你的应用对额外的CPU或GC的负载格外敏感，则这个选项不会有太大用处。

默认情况下，这个功能是关闭的，若要开启，可以在所有的RegionServer中的hbase-site.xml文件里设置 hbase.block.data.cachecompressed 为 true

References：

http://hbase.apache.org/book.html#arch.overview

HBase Block Cache（块缓存）的更多相关文章

Linux内核入门到放弃-页缓存和块缓存-《深入Linux内核架构》笔记
内核为块设备提供了两种通用的缓存方案. 页缓存(page cache) 块缓存(buffer cache) 页缓存的结构在页缓存中搜索一页所花费的时间必须最小化,以确保缓存失效的代价尽可能低廉,因为 ...
hbase源码系列（十三）缓存机制MemStore与Block Cache
这一章讲hbase的缓存机制,这里面涉及的内容也是比较多,呵呵,我理解中的缓存是保存在内存中的特定的便于检索的数据结构就是缓存. 之前在讲put的时候,put是被添加到Store里面,这个Store是 ...
13 hbase源码系列（十三）缓存机制MemStore与Block Cache
这一章讲hbase的缓存机制,这里面涉及的内容也是比较多,呵呵,我理解中的缓存是保存在内存中的特定的便于检索的数据结构就是缓存. 之前在讲put的时候,put是被添加到Store里面,这个Store是 ...
hfile&period;block&period;cache&period;size - hbase调优
1.一个regionserver上有一个blockcache和N个memstore,它们的大小之和必须小于heapsize* 0.8,否则hbase不能启动,因为仍然要留有一些内存保证其它任务的执行. ...
关于Hbase的cache配置
关于Hbase的cache配置在hbase中的hfilecache中,0.96版本号中新添加了bucket cache, bucket cache通过把hbase.offheapcache.perc ...
loadrunner提高篇-block（块）技术和参数化
Block(块)技术 block(块)技术是应用于在一个脚本中实现不同事务.不同次数循环或不同百分比循环的情况.比如在一个脚本中,登录执行3次,查询执行1次. 使用方法如下: 1.录制一个脚本,包含2 ...
Linux 释放cache化缓存
Linux 释放cache化缓存 free -g查看空余内存以及已使用内存原文 https://blog.csdn.net/tomspcc/article/details/78131468 机械硬 ...
Linux的Cache Memory(缓存内存)机制
转:https://blog.csdn.net/kaikai_sk/article/details/79177036 PS:为什么Linux系统没运行多少程序,显示的可用内存这么少?其实Linux与W ...
011-MySQL Query Cache 查询缓存设置操作
一.概述 MySQL Query Cache 会缓存select 查询,安装时默认是开启的,但是如果对表进行INSERT, UPDATE, DELETE, TRUNCATE, ALTER TABLE, ...

随机推荐

UIDatePicker
UIDatePickerDemo 效果用法 1.导入文件(CustomDatePickerView.h/.m 和UIView+SetRect.h/.m) 2.在所要用到地方导入头文件 #impor ...
SQL Server SELECT逻辑处理顺序
SQL Server SELECT语句,逻辑处理顺序,虽然SELECT位于语句最前面,它在逻辑处理中,基本上是最后一个被执行的部分. 下面列出查询子句在逻辑上处理顺序: 1. FROM 2. WH ...
Jenkins进阶系列之——14配置Jenkins用户和权限
今天给大家说说使用Jenkins专有用户数据库的配置,和一些常用的权限配置. 配置用户注册在已运行的Jenkins主页中,点击左侧的系统管理—>Configure Global Securit ...
JAVA实现DES加密
DES加密介绍 DES是一种对称加密算法,所谓对称加密算法即:加密和解密使用相同密钥的算法.DES加密算法出自IBM的研究,后来被美国*正式采用,之后开始广泛流传,但是近些年使用越来越少 ...
ZOJ 1108 &amp&semi; HDU 1160 - FatMouse&&num;39&semi;s Speed
题目大意:给你n只老鼠的体重w和速度s,让你找出最长的子序列使得w[i] < w[j] 且 s[i] > s[j] (i < j).求最长序列的长度并输出该序列. LIS(Longe ...
移动Web开发小结
以下是做移动端Web开发过程中小结的几个事项:希望能够帮助到大家,同时也方便自己查看: 1,在移动开发页面中,主体盒子的max-width与min-width的设置原因: ①设置max-width是为 ...
并行执行 Job - 每天5分钟玩转 Docker 容器技术（134）
有时,我们希望能同时运行多个 Pod,提高 Job 的执行效率.这个可以通过 parallelism 设置. 这里我们将并行的 Pod 数量设置为 2,实践一下: Job 一共启动了两个 Pod,而且 ...
WordPress主题开发：按分类调用文章
调用catid为2的分类下的文章,就是后台分类链接的tag_ID <?php $cat_query = new WP_Query(array( 'cat' => '2' )); ?> ...
在有 UI 线程参与的同步锁（如 AutoResetEvent）内部使用 await 可能导致死锁
AutoResetEvent.ManualResetEvent.Monitor.lock 等等这些用来做同步的类,如果在异步上下文(await)中使用,需要非常谨慎. 本文将说一个在同步上下文中非常常 ...
【Codeforces528D】Fuzzy Search FFT
D. Fuzzy Search time limit per test:3 seconds memory limit per test:256 megabytes input:standard inp ...