Hive基础知识

一、产生背景

1.MapReudce编程繁琐，需要编写大量的代码

2.HDFS中存放的都是文件，在HDFS中没有Scheme的概念，无法用SQL进行快速的查询。

二、Hive的概念

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。它使用一种使用类似于SQL的查询语句直接作用在分布式存储文件系统之上的数据仓库工具，用于解决海量结构化的日志数据统计问题。

Hive的数据存储在HDFS中，Hive的底层的计算是通过MR、Spark(Hive On Spark)或Tez来实现的。HQL语句通过Hive引擎被转化成map作业并提交到集群去运行，因此Hive的查询具有高延时性。

特别指出，Hive和SQL语言一样支持删查增改，但对于分布式文件系统中的大规模数据来说，Hive主要用于查询。那么Hive和关系型数据库有什么关联呢？没有任何关联，只是HQL和SQL相似而已。

Hive和关系型数据库比较：

Hive侧重于分析，而不是实时在线交易
Hive也支持事务，但是用的非常少
Hive不能随意地insert和update
Hive可以利用MR、Spark、Tez进行分布式处理，而传统关系型数据库不可以
Hive可以拓展到上百个服务器，而关系型数据库最多只能扩展到几十个服务器

三、Hive的架构

1.用户接口

命令行Cli接口、Web接口(WUI)、远程服务接口(Client)

2.元数据(Meta)存储

Hive的元数据可以存放在Derby、MySQL、Oracle、postgres等关系型数据库库中，在实际开发中通常使用MySQL。Derby是一种单Session数据库，不支持两台机器同时对一个数据仓库进行访问，不适用于生产环境。

Hive基础知识

Hive的元数据存放在关系型数据库中，如MySQL中，下图就是存储在Hive安装目录的与元数据相关的sql文件：

Hive基础知识

Meta ==> HA Database : MySQL主备 vip 。Hive、Spark SQL、impala等SQL on Hadoop使用同一套元数据。

为什么需要元数据？因为HDFS里的数据是以文件的形式存在的，无法使用SQL进行快速查询，而元数据的作用就是给HDFS中的文件作用上Scheme信息。

三、外部表和内部表的区别

内部表：存储目录默认是/user/hive/warehouse，其存储目录可以通过修改hive-site.xml文件的hive.metastore.dir参数进行配置。

相关文章