数据存储:大数据运算系统(3)--- MapReduce+SQL

时间:2023-01-08 16:43:16

1、MapReduce+SQL系统介绍
MapReduce提供了一个分布式应用编写的平台。但是,这仅仅是一个编程的平台,不适合数据分析师的使用;即使最基础的选择和投影操作,也必须写程序来实现。所以,对SQL的需求由此产生。

2、Hive(蜂巢)
管理和处理结构化数据;在Hadoop基础上实现;提供类似SQL的HiveQL语言。
Hive系统如下:
数据存储:大数据运算系统(3)--- MapReduce+SQL
  • 数据存储在HDFS上。HDFS目录:/usr/hive/warehouse/
  • Table:一个单独的hdfs目录。/hdfs/hive/warehouse/表名。Hive中的Table和数据库中的Table在概念上是类似的。
  • Table可以进一步划分为Partition。Partition 对应于数据库中的Partition列的密集索引。
  • Partition可以进一步划分为Bucket。Buckets对指定列计算hash,根据hash值切分数据,目的是为了并行,每一个Bucket对应一个文件。
  • Partition:每个Partition是Table目录下的子目录。假设pkey是partition key:/user/hive/warehouse/表名/pkey=value
  • Bucket:每个Bucket是Partition目录下的一个子目录。假设pkey是partition key,bkey是bucket key:/usr/hive/warehouse/表名/pkey=value/bkey=value
  • HiveQL:类似SQL,部分SQL和扩展,采用MapReduce扩展
  • SerDe:序列化/反序列化。
  • MetaStore存储表的定义信息等;默认在本地${HIVE_HOME}/metastore_db中;也可以配置存储在数据库RDBMS系统中。
  • Hive CLI:命令行客户端,可以执行各种HiveQL命令。

3、Hive数据模型
关系型表+扩展
(1)关系型表:无序记录;每个记录包含多列;每个列可以是原子数据类型。
(2)扩展:(1) 可以是更加复杂的类型(2)可以直接读取已有的外部数据,程序员提供一个SerDe的实现。(3) 可以表达MapReduce