Hive深入学习--应用场景及架构原理

Hive背景介绍

Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的。互联网现在进入了大数据时代，大数据是现在互联网的趋势，而hadoop就是大数据时代里的核心技术，但是hadoop的mapreduce操作专业性太强，所以facebook在这些基础上开发了hive框架，毕竟世界上会sql的人比会java的人多的多，hive可以说是学习hadoop相关技术的一个突破口。那么，hive是什么呢?

Hive简介

简单的说：hive是基于hadoop的数据仓库。

那么为什么说hive是基于Hadoop的呢？

之所以说hive是构建在Hadoop之上的数据仓库，简单的说是因为：

①数据存储在hdfs上

②数据计算用mapreduce

下面我们来深入分析一下：

Hive是一种建立在Hadoop文件系统上的数据仓库架构，并对存储在HDFS中的数据进行分析和管理；它可以将结构化的数据文件映射为一张数据库表，并提供完整的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务进行运行，通过自己的 SQL 去查询分析需要的内容，这套 SQL 简称 Hive SQL（HQL），使不熟悉 MapReduce 的用户也能很方便地利用 SQL 语言对数据进行查询、汇总、分析。同时，这个语言也允许熟悉 MapReduce 开发者们开发自定义的mappers和reducers来处理内建的mappers和reducers无法完成的复杂的分析工作。Hive还允许用户编写自己定义的函数UDF，用来在查询中使用。Hive中有3种UDF：User Defined Functions（UDF）、User Defined Aggregation Functions（UDAF）、User Defined Table Generating Functions（UDTF）。也就是说对存储在HDFS中的数据进行分析和管理，我们不想使用手工，我们建立一个工具吧，那么这个工具就可以是hive。

Hive常见的应用场景

(1)日志分析：大部分互联网公司使用hive进行日志分析，包括百度、淘宝等。

1)统计网站一个时间段内的pv、uv

2)多维度数据分析

(2)海量结构化数据离线分析

Hive的特点（优缺点）

（一）hive的优点

(1)简单容易上手：提供了类SQL查询语言HQL

(2)可扩展：为超大数据集设计了计算/扩展能力（MR作为计算引擎，HDFS作为存储系统）

一般情况下不需要重启服务Hive可以*的扩展集群的规模。

(3)提供统一的元数据管理

(4)延展性：Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数

(5)容错：良好的容错性，节点出现问题SQL仍可完成执行

（二）hive的缺点（局限性）

(1)hive的HQL表达能力有限

1)迭代式算法无法表达，比如pagerank

2)数据挖掘方面，比如kmeans

(2)hive的效率比较低

1)hive自动生成的mapreduce作业，通常情况下不够智能化

2)hive调优比较困难，粒度较粗

3)hive可控性差

Hive 工作原理

Hive 工作原理如下图所示。

Hive深入学习--应用场景及架构原理

Hive构建在Hadoop之上

（1）HQL中对查询语句的解释、优化、生成查询计划是由Hive完成的

（2）所有的数据都是存储在Hadoop中

（3）查询计划被转化为MapReduce任务，在Hadoop中执行（有些查询没有MR任务，如：select * from table）

（4）Hadoop和Hive都是用UTF-8编码的

Hive编译器的组成：

Hive深入学习--应用场景及架构原理

Hive编译流程如下

Hive深入学习--应用场景及架构原理

Hive和数据库的异同

由于Hive采用了SQL的查询语言HQL，因此很容易将Hive理解为数据库。其实从结构上来看，Hive和数据库除了拥有类似的查询语言，再无类似之处。数据库可以用在Online的应用中，但是Hive是为数据仓库而设计的，清楚这一点，有助于从应用角度理解Hive的特性。

Hive和数据库的比较如下表：

Hive深入学习--应用场景及架构原理

MapReduce 开发人员可以把自己写的 Mapper 和 Reducer 作为插件支持 Hive 做更复杂的数据分析。它与关系型数据库的 SQL 略有不同，但支持了绝大多数的语句（如 DDL、DML）以及常见的聚合函数、连接查询、条件查询等操作。

Hive 不适合用于联机(online) 事务处理，也不提供实时查询功能。它最适合应用在基于大量不可变数据的批处理作业。Hive 的特点是可伸缩（在Hadoop 的集群上动态的添加设备），可扩展、容错、输入格式的松散耦合。Hive 的入口是DRIVER ，执行的 SQL 语句首先提交到 DRIVER 驱动，然后调用 COMPILER 解释驱动，最终解释成 MapReduce 任务执行，最后将结果返回。

Hive 数据类型

Hive 提供了基本数据类型和复杂数据类型，复杂数据类型是 Java 语言所不具有的。本课程介绍 Hive 的两种数据类型以及数据类型之间的转换。

（一）基本数据类型

Hive深入学习--应用场景及架构原理

由上表我们看到hive不支持日期类型，在hive里日期都是用字符串来表示的，而常用的日期格式转化操作则是通过自定义函数进行操作。

hive是用java开发的，hive里的基本数据类型和java的基本数据类型也是一一对应的，除了string类型。有符号的整数类型：TINYINT、SMALLINT、INT和BIGINT分别等价于java的byte、short、int和long原子类型，它们分别为1字节、2字节、4字节和8字节有符号整数。Hive的浮点数据类型FLOAT和DOUBLE,对应于java的基本类型float和double类型。而hive的BOOLEAN类型相当于java的基本数据类型boolean。

对于hive的String类型相当于数据库的varchar类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储2GB的字符数。

（二）复杂数据类型

Hive深入学习--应用场景及架构原理

Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的 Array 和 Map 类似，而STRUCT 与 C语言中的 Struct 类似，它封装了一个命名字段集合，复杂数据类型允许任意层次的嵌套。

复杂数据类型的声明必须使用尖括号指明其中数据字段的类型。定义三列，每列对应一种复杂的数据类型，如下所示。

CREATE TABLE complex(

	col1 ARRAY< INT>,

	col2 MAP< STRING,INT>,

	col3 STRUCT< a:STRING,b:INT,c:DOUBLE>

)

（三）类型转化

Hive 的原子数据类型是可以进行隐式转换的，类似于 Java 的类型转换，例如某表达式使用 INT 类型，TINYINT 会自动转换为 INT 类型，但是 Hive 不会进行反向转化，例如，某表达式使用 TINYINT 类型，INT 不会自动转换为 TINYINT 类型，它会返回错误，除非使用 CAST 操作。

（1）隐式类型转换规则如下。

1）、任何整数类型都可以隐式地转换为一个范围更广的类型，如 TINYINT 可以转换成 INT，INT 可以转换成 BIGINT。

2）、所有整数类型、FLOAT 和 String 类型都可以隐式地转换成 DOUBLE。

3）、TINYINT、SMALLINT、INT 都可以转换为 FLOAT。

4）、BOOLEAN 类型不可以转换为任何其它的类型。

（2）可以使用 CAST 操作显示进行数据类型转换，例如 CAST('1' AS INT) 将把字符串'1' 转换成整数 1；如果强制类型转换失败，如执行 CAST('X' AS INT)，表达式返回空值 NULL。

Hive 架构

下面是Hive的架构图。

Hive深入学习--应用场景及架构原理

Hive的体系结构可以分为以下几部分

（1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至Hive Server。在启动 Client模式的时候，需要指出Hive Server所在节点，并且在该节点启动Hive Server。 WUI是通过浏览器访问Hive。

（2）Hive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

（3）解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后有MapReduce调用执行。

（4）Hive的数据存储在HDFS中，大部分的查询、计算由MapReduce完成（包含*的查询，比如select * from tbl不会生成MapRedcue任务）。

（一）用户接口

Hive 对外提供了三种服务模式，即 Hive 命令行模式（CLI），Hive 的 Web 模式（WUI），Hive 的远程服务（Client）。下面介绍这些服务的用法。

1、 Hive 命令行模式

Hive 命令行模式启动有两种方式。执行这条命令的前提是要配置 Hive 的环境变量。

1) 进入 /home/hadoop/app/hive 目录，执行如下命令。

./hive

2) 直接执行命令。

hive --service cli

Hive 命令行模式用于 Linux 平台命令行查询，查询语句基本跟 MySQL 查询语句类似，运行结果如下所示。

[hadoop@djt01 hive]$ hive

hive> show tables;

OK

stock

stock_partition

tst

Time taken: 1.088 seconds, Fetched: 3 row(s)

hive> select * from tst;

OK

Time taken: 0.934 seconds

hive> exit;

[hadoop@djt01 hive]$

2、Hive Web 模式

Hive Web 界面的启动命令如下。

hive --service hwi

通过浏览器访问 Hive，默认端口为 9999。

3、 Hive 的远程服务

远程服务（默认端口号 10000）启动方式命令如下，“nohup...&” 是 Linux 命令，表示命令在后台运行。

nohup hive --service hiveserver &	//在Hive 0.11.0版本之前，只有HiveServer服务可用

nohup hive --service hiveserver2 &	//在Hive 0.11.0版本之后，提供了HiveServer2服务

Hive 远程服务通过 JDBC 等访问来连接 Hive ，这是程序员最需要的方式。

本课程我们安装的是hive1.0版本，所以启动 hive service 命令如下。

hive  --service hiveserver2 &	//默认端口10000

hive --service hiveserver2 --hiveconf hive.server2.thrift.port 10002 &	//可以通过命令行直接将端口号改为10002

hive的远程服务端口号也可以在hive-default.xml文件中配置，修改hive.server2.thrift.port对应的值即可。

< property>

    < name>hive.server2.thrift.port< /name>

    < value>10000< /value>

    < description>Port number of HiveServer2 Thrift interface when hive.server2.transport.mode is 'binary'.< /description>

< /property>

Hive 的 JDBC 连接和 MySQL 类似，如下所示。

import java.sql.Connection;

import java.sql.DriverManager;

import java.sql.SQLException;

public class HiveJdbcClient {

	private static String driverName = "org.apache.hive.jdbc.HiveDriver";//hive驱动名称  hive0.11.0之后的版本

	//private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver";//hive驱动名称  hive0.11.0之前的版本

	public static  void main(String[] args) throws SQLException {

		try{

			Class.forName(driverName);

		}catch(ClassNotFoundException e){

			e.printStackTrace();

			System.exit(1);

		}

		//第一个参数：jdbc:hive://djt01:10000/default  连接hive2服务的连接地址

		//第二个参数：hadoop  对HDFS有操作权限的用户

		//第三个参数：hive  用户密码  在非安全模式下，指定一个用户运行查询，忽略密码

		Connection con = DriverManager.getConnection("jdbc:hive://djt01:10000/default", "hadoop", "");

		System.out.print(con.getClientInfo());

	}

}

（二）元数据存储。

Hive将元数据存储在RDBMS中，有三种模式可以连接到数据库：

（1）单用户模式。此模式连接到一个In-memory 的数据库Derby，一般用于Unit Test。

Hive深入学习--应用场景及架构原理

（2）多用户模式。通过网络连接到一个数据库中，是最经常使用到的模式。

Hive深入学习--应用场景及架构原理

（3）远程服务器模式。用于非Java客户端访问元数据库，在服务器端启动MetaStoreServer，客户端利用Thrift协议通过MetaStoreServer访问元数据库。

Hive深入学习--应用场景及架构原理

对于数据存储，Hive没有专门的数据存储格式，也没有为数据建立索引，用户可以非常*的组织Hive中的表，只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符，Hive就可以解析数据。Hive中所有的数据都存储在HDFS中，存储结构主要包括数据库、文件、表和视图。Hive中包含以下数据模型：Table内部表，External Table外部表，Partition分区，Bucket桶。Hive默认可以直接加载文本文件，还支持sequence file 、RCFile。

（三）解释器、编译器、优化器。

1)解析器（parser）：将查询字符串转化为解析树表达式。

2)语义分析器（semantic analyzer）：将解析树表达式转换为基于块（block-based）的内部查询表达式。

3)逻辑策略生成器（logical plan generator）：将内部查询表达式转换为逻辑策略，这些策略由逻辑操作树组成。

4)优化器（optimizer）：通过逻辑策略构造多途径并以不同方式重写。

Hive 文件格式

hive文件存储格式包括以下几类：

1、TEXTFILE

2、SEQUENCEFILE

3、RCFILE

4、ORCFILE(0.11以后出现)

其中TEXTFILE为默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理。

SEQUENCEFILE，RCFILE，ORCFILE格式的表不能直接从本地文件导入数据，数据要先导入到textfile格式的表中，然后再从表中用insert导入SequenceFile,RCFile,ORCFile表中。

（一）TEXTFILE 格式

默认格式，数据不做压缩，磁盘开销大，数据解析开销大。可结合Gzip、Bzip2使用(系统自动检查，执行查询时自动解压)，但使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作。

示例：

create table if not exists textfile_table(

site string,

url  string,

pv   bigint,

label string)

row format delimited

fields terminated by '\t'

stored as textfile;

插入数据操作：

set hive.exec.compress.output=true;

set mapred.output.compress=true;

set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;

insert overwrite table textfile_table select * from textfile_table;

（二）SEQUENCEFILE 格式

SequenceFile是Hadoop API提供的一种二进制文件支持，其具有使用方便、可分割、可压缩的特点。 SequenceFile支持三种压缩选择：NONE，RECORD，BLOCK。Record压缩率低，一般建议使用BLOCK压缩。

示例：

create table if not exists seqfile_table(

site string,

url  string,

pv   bigint,

label string)

row format delimited

fields terminated by '\t'

stored as sequencefile;

插入数据操作：

set hive.exec.compress.output=true;

set mapred.output.compress=true;

set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;

SET mapred.output.compression.type=BLOCK;

insert overwrite table seqfile_table select * from textfile_table;

（三）RCFILE 文件格式

RCFILE是一种行列存储相结合的存储方式。首先，其将数据按行分块，保证同一个record在一个块上，避免读一个记录需要读取多个block。其次，块数据列式存储，有利于数据压缩和快速的列存取。

RCFILE文件示例：

create table if not exists rcfile_table(

site string,

url  string,

pv   bigint,

label string)

row format delimited

fields terminated by '\t'

stored as rcfile;

插入数据操作：

set hive.exec.compress.output=true;

set mapred.output.compress=true;

set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;

insert overwrite table rcfile_table select * from textfile_table;

（四）再看TEXTFILE、SEQUENCEFILE、RCFILE三种文件的存储情况：

[hadoop@djt01 ~]$ hadoop dfs -dus /user/hive/warehouse/*

hdfs://hadoop@djt01:19000/user/hive/warehouse/hbase_table_1    0

hdfs://hadoop@djt01:19000/user/hive/warehouse/hbase_table_2    0

hdfs://hadoop@djt01:19000/user/hive/warehouse/orcfile_table    0

hdfs://hadoop@djt01:19000/user/hive/warehouse/rcfile_table    102638073

hdfs://hadoop@djt01:19000/user/hive/warehouse/seqfile_table   112497695

hdfs://hadoop@djt01:19000/user/hive/warehouse/testfile_table  536799616

hdfs://hadoop@djt01:19000/user/hive/warehouse/textfile_table  107308067

[hadoop@djt01 ~]$ hadoop dfs -ls /user/hive/warehouse/*/

-rw-r--r--   2 hadoop supergroup   51328177 2014-03-20 00:42 /user/hive/warehouse/rcfile_table/000000_0

-rw-r--r--   2 hadoop supergroup   51309896 2014-03-20 00:43 /user/hive/warehouse/rcfile_table/000001_0

-rw-r--r--   2 hadoop supergroup   56263711 2014-03-20 01:20 /user/hive/warehouse/seqfile_table/000000_0

-rw-r--r--   2 hadoop supergroup   56233984 2014-03-20 01:21 /user/hive/warehouse/seqfile_table/000001_0

-rw-r--r--   2 hadoop supergroup  536799616 2014-03-19 23:15 /user/hive/warehouse/testfile_table/weibo.txt

-rw-r--r--   2 hadoop supergroup   53659758 2014-03-19 23:24 /user/hive/warehouse/textfile_table/000000_0.gz

-rw-r--r--   2 hadoop supergroup   53648309 2014-03-19 23:26 /user/hive/warehouse/textfile_table/000001_1.gz

总结： 相比TEXTFILE和SEQUENCEFILE，RCFILE由于列式存储方式，数据加载时性能消耗较大，但是具有较好的压缩比和查询响应。数据仓库的特点是一次写入、多次读取，因此，整体来看，RCFILE相比其余两种格式具有较明显的优势。

以上就是博主为大家介绍的这一板块的主要内容，这都是博主自己的学习过程，希望能给大家带来一定的指导作用，有用的还望大家点个支持，如果对你没用也望包涵，有错误烦请指出。如有期待可关注博主以第一时间获取更新哦，谢谢！　

Hive深入学习--应用场景及架构原理的更多相关文章

深入学习Hive应用场景及架构原理
Hive背景介绍 Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的.互联网现在进入了大数据时代,大数据是现在互联网的趋势,而hadoop就是大数据时代里的核 ...
Flume应用场景及架构原理
Flume概念 Flume是一个分布式.可靠.和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力. ...
flume用场景及架构原理
Flume是什么 1.flume可以将采集到的数据存储到HDFS上,也可以放在Hbase上. 2.flume就是一个中间插件,他的作用就是屏蔽数据源和数据存储系统的差异.可以在不同的数据源采集数据,因 ...
spark学习12（spark架构原理）
spark采用的是主从式的架构,主节点叫master,从节点是worker Driver 我们编写的spark就在Driver上,由driver进程执行. Driver是spark集群的节点之一,或你 ...
Hive的配置| 架构原理
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能. 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hi ...
NET/ASP&period;NET Routing路由（深入解析路由系统架构原理）（转载）
NET/ASP.NET Routing路由(深入解析路由系统架构原理) 阅读目录: 1.开篇介绍 2.ASP.NET Routing 路由对象模型的位置 3.ASP.NET Routing 路由对象模 ...
简单理解Hadoop架构原理
一.前奏 Hadoop是目前大数据领域最主流的一套技术体系,包含了多种技术. 包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等. 有些朋友可能 ...
Elasticsearch架构原理
架构原理本书作为 Elastic Stack 指南,关注于 Elasticsearch 在日志和数据分析场景的应用,并不打算对底层的 Lucene 原理或者 Java 编程做详细的介绍,但是 Ela ...
Tomcat 架构原理解析到架构设计借鉴
Tomcat 发展这么多年,已经比较成熟稳定.在如今『追新求快』的时代,Tomcat 作为 Java Web 开发必备的工具似乎变成了『熟悉的陌生人』,难道说如今就没有必要深入学习它了么?学习它我们又 ...

随机推荐

移动硬盘不能识别的常见7种解决方案 ~ By 逆天经验
服务器汇总:http://www.cnblogs.com/dunitian/p/4822808.html#iis 服务器异常: http://www.cnblogs.com/dunitian/p/45 ...
由浅入深探究mysql索引结构原理、性能分析与优化
摘要: 第一部分:基础知识第二部分:MYISAM和INNODB索引结构 1.简单介绍B-tree B+ tree树 2.MyisAM索引结构 3.Annode索引结构 4.MyisAM索引与Inno ...
缓存算法–LRU
LRU LRU是Least Recently Used 的缩写,翻译过来就是“最近最少使用”,也就是说,LRU缓存把最近最少使用的数据移除,让给最新读取的数据.而往往最常读取的,也是读取次数最多的,所 ...
BAT染指影视制作欲全面撬开互联网粉丝经济
预測: 或靠"用户"模式盈利除了内容制作,电影发行也在遭遇互联网模式的冲击. 除了给片方支付高额保底以外,随着市场竞争激烈.新进入者都在争夺好片的发行权. 业内预測.再往后,发行 ...
CSS布局部分知识总结
一切图通过一个周的切图练习,我发现只有亲自动手后才能通过问题不断加深技术,要熟练掌握HTML页面编写时候时PHOTOSHOP操作. 以下一些知识点在网络布局时也是很重要的. 1.ul标签在谷歌.火 ...
javasript校验字符串【正则和其他函数】
/**javasript校验输入框值只能为数字中文英文和下划线**/function isRegex(s){ var reg=/^[a-zA-Z0-9_\u4e00-\u9fa5]+$/; if (! ...
全网最全的Windows下Anaconda2 / Anaconda3里正确下载安装用来向微信好友发送消息的itchat库（图文详解）
不多说,直接上干货! Anaconda2 里 PS C:\Anaconda2\Scripts> PS C:\Anaconda2\Scripts> pip.exe install itch ...
最好用的jquery列表拖动排列(由项目提取)
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/wuchengzeng/article/details/31766235 最好的jquery列表拖动排 ...
multiselect2side：jQuery多选列表框插件
http://blog.csdn.net/rosanu_blog/article/details/8550723 http://www.bkjia.com/jQuery/449193.html &lt ...
3dmax导出模型使用相对路径读取纹理贴图
Shift+T快捷键打开“资源跟踪”窗口