1、MapReduce+SQL系统介绍
MapReduce提供了一个分布式应用编写的平台。但是,这仅仅是一个编程的平台,不适合数据分析师的使用;即使最基础的选择和投影操作,也必须写程序来实现。所以,对SQL的需求由此产生。
2、Hive(蜂巢)
管理和处理结构化数据;在Hadoop基础上实现;提供类似SQL的HiveQL语言。
Hive系统如下:
- 数据存储在HDFS上。HDFS目录:/usr/hive/warehouse/
- Table:一个单独的hdfs目录。/hdfs/hive/warehouse/表名。Hive中的Table和数据库中的Table在概念上是类似的。
- Table可以进一步划分为Partition。Partition 对应于数据库中的Partition列的密集索引。
- Partition可以进一步划分为Bucket。Buckets对指定列计算hash,根据hash值切分数据,目的是为了并行,每一个Bucket对应一个文件。
- Partition:每个Partition是Table目录下的子目录。假设pkey是partition key:/user/hive/warehouse/表名/pkey=value
- Bucket:每个Bucket是Partition目录下的一个子目录。假设pkey是partition key,bkey是bucket key:/usr/hive/warehouse/表名/pkey=value/bkey=value
- HiveQL:类似SQL,部分SQL和扩展,采用MapReduce扩展。
- SerDe:序列化/反序列化。
- MetaStore:存储表的定义信息等;默认在本地${HIVE_HOME}/metastore_db中;也可以配置存储在数据库RDBMS系统中。
- Hive CLI:命令行客户端,可以执行各种HiveQL命令。
3、Hive数据模型
关系型表+扩展
(1)关系型表:无序记录;每个记录包含多列;每个列可以是原子数据类型。
(2)扩展:(1)
可以是更加复杂的类型(2)可以直接读取已有的外部数据,程序员提供一个SerDe的实现。(3)
可以表达MapReduce。