Hadoop之Hbase详解

1、什么是Hbase
　　HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，
　　hbase是列式的分布式数据库

　　1.2、HBASE优势：
　　　　1）线性扩展，随着数据量增多可以通过节点扩展进行支撑
　　　　2）数据存储在hdfs上，备份机制健全
　　　　3）通过zookeeper协调查找数据，访问速度块

　　1.3、hbase集群中的角色
　　　　1、一个或者多个主节点，Hmaster
　　　　2、多个从节点，HregionServer

　　1.4、Row Key
　　　　与nosql数据库们一样,row key是用来检索记录的主键。访问HBASE table中的行，只有三种方式：
　　　　　　1.通过单个row key访问
　　　　　　2.通过row key的range（正则）
　　　　　　3.全表扫描
　　　　1.4.1Row key行键

　　　　　　Row key可以是任意字符串(最大长度是 24KB，实际应用中长度一般为 10-100bytes)，
　　　　在HBASE内部，row key保存为字节数组。存储时，数据按照Row key的字典序(byte order)排序存储。
　　　　设计key时，要充分排序存储这个特性，将经常一起读取的行存储放到一起。(位置相关性)
　　　　1.4.2. Columns Family
　　　　　　列簇：HBASE表中的每个列，都归属于某个列族。列族是表的schema的一部分(而列不是)，必须在使用表
　　　　　　之前定义。列名都以列族作为前缀。例如 courses:history，courses:math都属于courses 这个列族。
　　　　1.4.3. Cell
　　　　　　由{row key, columnFamily, version} 唯一确定的单元。cell中的数据是没有类型的，全部是字节码
　　　　　　形式存贮。关键字：无类型、字节码
　　　　1.4.4. Time Stamp
　　　　　　HBASE 中通过rowkey和columns确定的为一个存贮单元称为cell。每个 cell都保存着同一份数据的多个
　　　　　　版本。版本通过时间戳来索引。时间戳的类型是 24位整型。时间戳可以由HBASE(在数据写入时自动 )赋值
　　　　　　，此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。

　　1.5. 命令
　　　　名称命令表达式
　　　　　　创建表 create '表名', '列族名1','列族名2','列族名N'
　　　　　　查看所有表 list
　　　　　　描述表 describe ‘表名’
　　　　　　判断表存在 exists '表名'
　　　　　　判断是否禁用启用表 is_enabled '表名' is_disabled ‘表名’
　　　　　　添加记录 put ‘表名’, ‘rowKey’, ‘列族 : 列‘ , '值'
　　　　　　查看记录rowkey下的所有数据 get '表名' , 'rowKey'
　　　　　　查看表中的记录总数 count '表名'
　　　　　　获取某个列族 get '表名','rowkey','列族'
　　　　　　获取某个列族的某个列 get '表名','rowkey','列族：列’
　　　　　　删除记录 delete ‘表名’ ,‘行名’ , ‘列族：列'
　　　　　　删除整行 deleteall '表名','rowkey'

　　　　　　删除一张表先要屏蔽该表，才能对该表进行删除
　　　　　　第一步 disable ‘表名’ ，第二步 drop '表名'
　　　　　　清空表 truncate '表名'
　　　　　　查看所有记录 scan "表名"
　　　　　　查看某个表某个列中所有数据 scan "表名" , {COLUMNS=>'列族名:列名'}
　　　　　　更新记录就是重写一遍，进行覆盖，hbase没有修改，都是追加

2、hbase依赖zookeeper
　　1、保存Hmaster的地址和backup-master地址
　　　　hmaster：
　　　　　　a) 管理HregionServer
　　　　　　b) 做增删改查表的节点
　　　　　　c) 管理HregionServer中的表分配
　　2、保存表-ROOT-的地址
　　　　hbase默认的根表，检索表。
　　3、 HRegionServer列表
　　　　表的增删改查数据。
　　　　和hdfs交互，存取数据

3、Hbase原理
　　3.1.写流程
　　　　1、 client向hregionserver发送写请求。
　　　　2、 hregionserver将数据写到hlog（write ahead log）。为了数据的持久化和恢复。
　　　　3、 hregionserver将数据写到内存（memstore）
　　　　4、反馈client写成功。

　　3.2、数据flush过程
　　　　1、当memstore数据达到阈值（默认是64M），将数据刷到硬盘，将内存中的数据删除，同时删除Hlog中的历史数据。
　　　　2、并将数据存储到hdfs中。
　　　　3、在hlog中做标记点。

　　3.3.数据合并过程
　　　　1、当数据块达到4块，hmaster将数据块加载到本地，进行合并
　　　　2、当合并的数据超过256M，进行拆分，将拆分后的region分配给不同的hregionserver管理
　　　　3、当hregionser宕机后，将hregionserver上的hlog拆分，然后分配给不同的hregionserver加载，修改.META.
　　　　4、注意：hlog会同步到hdfs

　　3.4.hbase的读流程
　　　　1、通过zookeeper和-ROOT- .META.表定位hregionserver。
　　　　2、数据从内存和硬盘合并后返回给client
　　　　3、数据块会缓存

　　3.5.hmaster的职责
　　　　1、管理用户对Table的增、删、改、查操作；
　　　　2、记录region在哪台Hregion server上
　　　　3、在Region Split后，负责新Region的分配；
　　　　4、新机器加入时，管理HRegion Server的负载均衡，调整Region分布
　　　　5、在HRegion Server宕机后，负责失效HRegion Server 上的Regions迁移

　　3.6.hregionserver的职责
　　　　HRegion Server主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是HBASE中最核心的模块。
　　　　HRegion Server管理了很多table的分区，也就是region。

　　3.7.client职责
　　　　Client
　　　　HBASE Client使用HBASE的RPC机制与HMaster和RegionServer进行通信
　　　　管理类操作：Client与HMaster进行RPC；
　　　　数据读写类操作：Client与HRegionServer进行RPC

　　3.8.Hbase表结构：
　　　　建表时，不需要限定表中
　　　　字段，只需要指定若干列族
　　　　插入数据时候，列族中可以存储任意多个
　　　　列(kv，列名&列值)
　　　　要查询某个具体字段的值，需要指定的
　　　　坐标：表名——>行键——>列族：列名——>版本——>

　　Hmaster：不负责存储表数据
　　　　1、：负责管理regionserver的状态
　　　　2、：负责regionserver的负载均衡

　　HBase的寻址机制
　　　　用户数据表——>META表——>ROOT表——>ZooKeeper

　　　　一个用户的数据表会被切分很多的region
　　　　会被存储在很多的regionserver上

　　　　Hlog记录了当前数据的最新操作
　　　　store是一个列族

4. MapReduce操作Hbase
　　实现方法
　　　　Hbase对MapReduce提供支持，它实现了TableMapper类和TableReducer类，我们只需要继承这两个类即可。
　　　　　　1、写个mapper继承TableMapper<Text, IntWritable>
　　　　　　　　参数：Text：mapper的输出key类型； IntWritable：mapper的输出value类型。
　　　　　　　　其中的map方法如下：
　　　　　　　　map(ImmutableBytesWritable key, Result value,Context context)
　　　　　　　　参数：key：rowKey；value： Result ，一行数据； context上下文
　　　　　　2、写个reduce继承TableReducer<Text, IntWritable, ImmutableBytesWritable>
　　　　　　　　参数：Text:reducer的输入key； IntWritable：reduce的输入value；
　　　　　　　　ImmutableBytesWritable：reduce输出到hbase中的rowKey类型。
　　　　　　　　其中的reduce方法如下：
　　　　　　　　reduce(Text key, Iterable<IntWritable> values,Context context)
　　　　　　　　参数： key：reduce的输入key；values：reduce的输入value；

秒客网

Hadoop之Hbase详解

相关文章