【大数据】Hive快速入门

文章目录

- 概述
- - 一、Hive的基本概念
  - 二、Hive的架构与组件
  - 三、Hive的特点与优势
  - 四、Hive的应用场景
  - 五、Hive的官方网站与资源
- 驱动说明（Driver）
- - 一、主要功能
  - 二、与其他组件的交互
  - 三、工作流程
  - 四、重要性
- 元数据模型(Metastore)
- - 一、Hive元数据模型的基本概念
  - 二、Hive元数据模型的组成
  - 三、Hive元数据的存储
  - 四、Hive元数据查询
- HQL简单说明
- - 一、DDL语句（数据定义语句）
  - 二、DQL语句（数据查询语句）
  - 三、其他操作
- 配置文件简单说明
- - 一、hive-site.xml
  - 二、hive-env.sh
  - 三、hive-log4j2.properties
  - 四、hive-default.xml
  - 五、其他配置文件
  - 六、配置文件的查找和修改

概述

Hive是基于Hadoop的一个数据仓库工具，以下是对Hive数据库的详细介绍：

一、Hive的基本概念

Hive可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能，是用于存储、分析、报告的数据系统。Hive使用HQL（Hive Query Language）作为查询接口，该语言类似于SQL，使得用户可以通过SQL语句的方式对存储在Hadoop中的数据进行查询和管理。

二、Hive的架构与组件

Hive架构包括多个组件，这些组件可以分为服务端组件和客户端组件。主要组件包括：
hive-and-hadoop

CLI（Command Line Interface）：命令行接口，用户可以在命令行中执行HQL查询。
JDBC/ODBC：提供Java数据库连接和开放数据库连接功能，使得Java和非Java应用程序都能连接到Hive数据库。
Thrift Server：提供JDBC和ODBC接入的能力，支持跨语言的服务开发。
Hive WEB Interface（HWI）：通过网页的方式访问Hive所提供的服务。
Metastore：元数据服务组件，存储Hive的元数据，元数据对于Hive十分重要。
Driver：核心组件，包括Compiler（编译器）、Optimizer（优化器）和Executor（执行器）。Driver的作用是将HQL语句进行解析、编译优化，生成执行计划，然后调用底层的MapReduce计算框架或其他计算框架（如Tez、Spark）进行计算。

三、Hive的特点与优势

快速处理大量数据：Hive使用了Hadoop的MapReduce框架，可以将任务分解成多个子任务并行处理，从而加快处理速度。
灵活性：Hive支持多种数据存储格式，如文本文件、CSV文件、SequenceFile等，并且可以自定义数据存储格式。同时，Hive也支持用户自定义函数（UDF），方便用户对数据进行更复杂的处理和计算。
可扩展性：Hive可以方便地扩展到更多的节点上，以便处理更大规模的数据。随着数据量的增长，可以通过增加集群节点来提高Hive的处理能力。
安全性：Hive提供了用户认证和访问控制机制，可以保护数据不被非法访问和篡改。
易用性：Hive提供了丰富的API和工具，使得用户可以轻松地使用和管理数据。同时，Hive的HQL语言类似于SQL，使得用户无需学习新的查询语言即可上手使用。

四、Hive的应用场景

Hive常用于数据分析领域，对实时性要求不高的场合。Hive的优势在于处理大数据，对于处理小数据没有优势。以下是一些Hive的典型应用场景：

金融行业：用于风险管理、客户分析、欺诈检测等领域，提高数据处理效率和准确性。
电商行业：用于用户行为分析、推荐系统、广告投放等领域，帮助企业更好地理解用户需求和提高销售效率。
媒体行业：用于内容分析、用户画像、个性化推荐等领域，提高内容生产和传播效率。
物流行业：用于路线规划、货物跟踪、库存管理等领域，提高物流效率和降低成本。
医疗行业：用于患者数据分析、医疗资源管理、疾病预测等领域，帮助医疗机构提供更好的医疗服务。
*机构：用于数据治理、政策制定、舆情监控等领域，帮助*更好地管理和服务社会。

五、Hive的官方网站与资源

Hive的官方网站为：http://hive.apache.org。在官方网站上，用户可以找到Hive的最新版本、文档、下载链接以及社区支持等资源。此外，用户还可以在GitHub上找到Hive的源代码和贡献者社区：https://github.com/apache/hive。

综上所述，Hive是一个功能强大的数据仓库工具，具有快速、灵活、可扩展、安全、易用等特点。Hive在数据分析领域有着广泛的应用场景，可以帮助企业更好地管理和分析大数据。

驱动说明（Driver）

Hive Driver是Hive的核心组件之一，它负责接收和处理用户的查询语句，并在Hive查询处理过程中扮演着至关重要的角色。以下是对Hive Driver的详细说明：

一、主要功能

解析查询：Hive Driver首先会接收用户通过接口提交的HiveQL查询语句。然后，它利用解析器将HiveQL查询语句解析为抽象语法树（AST）或解析树，这表示了查询的语法结构。
优化查询：在解析完成后，优化器会对解析树进行优化，消除冗余操作，并重新排列操作以提高执行效率。这一步骤会生成逻辑执行计划，并进一步转化为物理执行计划。
执行计划：优化后的查询计划会被转换为具体的执行计划，包括各个MapReduce或Spark任务的详细信息。Hive Driver负责将物理执行计划转换为可执行的任务。
提交任务：执行计划生成后，Hive Driver会将任务提交给Hadoop执行引擎（如YARN框架）进行管理和调度。
返回结果：任务执行完成后，Hive Driver会收集各个任务的执行结果，并通过JDBC或HiveServer2将最终结果返回给用户。

二、与其他组件的交互

与Metastore的交互：Hive Driver在查询执行过程中，需要与Metastore交互以获取元数据信息，这些元数据对于查询的正确执行至关重要。
与Executor的交互：Hive Driver生成的物理执行计划需要提交给Executor进行实际的查询执行。Executor是Hive查询的执行引擎，负责执行Driver生成的物理执行计划。

三、工作流程

用户通过Hive提供的接口（如命令行接口、Thrift服务、JDBC/ODBC接口）提交HiveQL查询语句。
Hive Driver接收查询语句并进行解析，生成抽象语法树或解析树。
优化器对解析树进行优化，生成逻辑执行计划，并进一步转化为物理执行计划。
Hive Driver将物理执行计划转换为可执行的任务，并提交给Hadoop执行引擎进行管理和调度。
执行引擎执行任务，并将结果返回给Hive Driver。
Hive Driver收集结果，并通过接口将最终结果返回给用户。

四、重要性

Hive Driver在Hive的查询处理过程中起着承上启下的作用。它不仅负责解析和优化用户的查询语句，还将其转化为可执行的任务并最终返回结果。因此，掌握Hive Driver的工作机制对于优化查询性能和提高大数据处理的效率具有重要意义。

综上所述，Hive Driver是Hive中不可或缺的核心组件之一，它负责处理用户的查询语句，并与其他组件协同工作以完成查询任务。

元数据模型(Metastore)

Hive的元数据模型是Hive数据架构中的关键部分，它描述了Hive中数据的组织方式和结构。以下是对Hive元数据模型的详细介绍：

一、Hive元数据模型的基本概念

Hive元数据模型是Hive用于描述和管理数据的模型，它包括了数据库、表、分区、桶等概念，这些概念共同构成了Hive数据的组织框架。

二、Hive元数据模型的组成

hive-metadata

Database（数据库）
- 是Hive元数据模型的最上层，类似于关系数据库中的Database概念。
- 通过Database可以逻辑地划分Hive表的命名空间，避免表名冲突。
- Hive默认自带的Database名为default，HDFS存储路径由配置决定。
Table（表）
- Hive中的表与关系型数据库中的表在概念上相似，每个表在HDFS中都有相应的目录来存储数据。
- 根据数据是否受Hive管理，Hive中的表可以分为管理表（Managed Table）和外部表（External Table）。
  - 管理表：HDFS存储数据受Hive管理，删除表时，实际数据也会被删除。
  - 外部表：HDFS存储路径不受Hive管理，删除表时，仅删除元数据，实际数据不受影响。
- 根据表的生命周期，Hive中的表还可以分为永久表和临时表。
  - 永久表：默认创建的表类型，数据永久存储在HDFS上。
  - 临时表：仅在当前Session有效的表，数据临时存放在用户的临时目录下，当前Session退出后即删除。
Partition（分区）
- 是基于用户指定的分区列的值对数据表进行分区。
- 表的每一个分区对应表下的相应目录，所有分区的数据都存储在对应的目录中。
- 分区有助于提高查询效率，因为它可以从物理上划分不同列的数据，实现查询的剪枝。
Bucket（桶）
- 是另一种数据组织方式，用于弥补分区的短板（不是所有的列都可以作为分区键）。
- 通过Bucket列的值进行Hash散列到相应的文件中，重新组织数据，每一个桶对应一个文件。
- 桶有利于查询优化，比如SMB Join，同时对于抽样也非常有效。

三、Hive元数据的存储

Hive将元数据存储在关系型数据库（RDBMS）中，有以下3种模式可以连接到数据库：

Single User Mode（单用户模式）：使用内置Derby数据库，也称内嵌Derby模式。这种模式适用于测试环境，因为它在同一时刻只能有一个Hive客户端使用数据库，且无法实现元数据共享。
Multi User Mode（多用户模式）：使用本地MySQL数据库，也称本地模式。这是开发中经常使用的模式，因为它允许多个Hive客户端同时连接到MySQL数据库。
Remote Server Mode（远程服务模式）：使用远程元数据服务访问数据库，也称远程模式。在这种模式下，Hive服务和metastore服务可以在不同的进程中或不同的主机中运行，从而实现二者的解耦。远程模式在生产环境中更为推荐。

四、Hive元数据查询

Hive提供了多种方式来查询元数据信息，包括使用HiveQL语句、Hive命令行工具和使用Hive的Java API。通过这些方式，用户可以查询数据库列表、表列表、表的列信息、表的分区信息以及表的存储位置等元数据。

综上所述，Hive的元数据模型是Hive数据架构的核心部分，它描述了数据的组织方式和结构。通过理解Hive元数据模型，用户可以更好地管理和查询Hive中的数据。

HQL简单说明

Hive SQL（也称为HQL，Hive Query Language）是用于在Hive中操作数据的查询语言。Hive是一个数据仓库基础的应用工具，它架构在Hadoop之上，通过SQL来对数据进行操作。以下是对Hive SQL语法的详细说明：

一、DDL语句（数据定义语句）

创建数据库
```
CREATE DATABASE [IF NOT EXISTS] db_name [LOCATION 'path'] [COMMENT database_comment];
```
- [IF NOT EXISTS]：如果数据库已存在，则不执行创建操作。
- [LOCATION 'path']：指定数据库在HDFS上的存储位置。
- [COMMENT database_comment]：为数据库添加注释。

修改数据库

ALTER DATABASE db_name SET LOCATION hdfs_path;
ALTER DATABASE db_name SET DBPROPERTIES ('property_name'='property_value');

SET LOCATION hdfs_path：修改数据库的存储位置。
SET DBPROPERTIES：修改数据库的属性。

删除数据库
```
DROP DATABASE [IF EXISTS] db_name [CASCADE];
```
- [IF EXISTS]：如果数据库存在，则执行删除操作。
- [CASCADE]：级联删除，如果数据库中有表，则连同表一起删除。

创建表

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...) INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION 'path']

[EXTERNAL]：创建外部表，指定实际数据的路径。
[IF NOT EXISTS]：如果表已存在，则不执行创建操作。
PARTITIONED BY：基于列进行分区。
CLUSTERED BY：基于列进行分桶。
ROW FORMAT：设置行数据分割格式。
STORED AS：指定存储格式。
[LOCATION 'path']：指定表数据在HDFS上的存储位置。

修改表

重命名表

ALTER TABLE old_table_name RENAME TO new_table_name;

修改列的属性

ALTER TABLE table_name CHANGE COLUMN old_col_name new_col_name new_data_type;
ALTER TABLE table_name MODIFY COLUMN col_name new_data_type;

添加/删除列

ALTER TABLE table_name ADD COLUMNS (col_name data_type [COMMENT col_comment], ...);
ALTER TABLE table_name REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...); -- 替换所有列

添加/删除分区

ALTER TABLE table_name ADD PARTITION (partition_col='partition_value', ...);
ALTER TABLE table_name DROP PARTITION (partition_col='partition_value', ...);

删除表
```
DROP TABLE [IF EXISTS] table_name;
```

二、DQL语句（数据查询语句）

基本查询

SELECT [ALL | DISTINCT] col_name, ...
FROM table_name
[WHERE condition]
[GROUP BY col_name, ...]
[HAVING condition]
[ORDER BY col_name [ASC|DESC], ...]
[LIMIT number];

联合查询

SELECT ...
FROM table1
UNION [ALL]
SELECT ...
FROM table2;

子查询

SELECT ...
FROM (SELECT ... FROM table_name) subquery_alias
[WHERE condition];

复杂查询

Hive SQL还支持各种复杂查询，如窗口函数、分析函数、行转列、列转行等，这些查询通常涉及到特定的Hive函数和语法。

三、其他操作

显示数据库和表

SHOW DATABASES;
SHOW TABLES [IN db_name];
SHOW PARTITIONS table_name;

描述表和列

DESCRIBE table_name;
DESCRIBE FORMATTED table_name;
DESCRIBE EXTENDED table_name column_name;

加载数据

从本地文件系统加载数据到表中

LOAD DATA LOCAL INPATH 'local_file_path' INTO TABLE table_name;

从HDFS加载数据到表中

LOAD DATA INPATH 'hdfs_file_path' INTO TABLE table_name;

加载数据到分区表中

LOAD DATA [LOCAL] INPATH 'file_path' INTO TABLE table_name PARTITION (partition_col='partition_value', ...);

导出数据

Hive SQL也支持将数据从表中导出到本地文件系统或HDFS中，但通常需要使用Hive提供的命令行工具或Hadoop的文件系统命令来完成。

以上是对Hive SQL语法的详细说明。Hive SQL具有丰富的功能和强大的数据处理能力，能够满足大数据处理和分析的需求。

配置文件简单说明

Hive的配置文件通常存储在conf目录下，该目录下包含了多个配置文件，这些配置文件对于Hive的运行和性能调优至关重要。以下是对Hive主要配置文件的详细说明：

一、hive-site.xml

这是Hive最为重要的配置文件，包含了Hive的所有配置信息。以下是一些常见的配置项：

元数据仓库的配置：
- javax.jdo.option.ConnectionURL：指定元数据仓库的数据库连接URL。
- javax.jdo.option.ConnectionDriverName：指定元数据仓库的数据库驱动。
- javax.jdo.option.ConnectionUserName和javax.jdo.option.ConnectionPassword：分别指定连接元数据仓库的数据库用户名和密码。
HiveServer2的配置：
- hive.server2.thrift.port：指定HiveServer2服务的端口号。
- hive.server2.thrift.bind.host：指定HiveServer2服务绑定的主机名。
其他常用配置：
- hive.cli.print.header：设置为true时，在查询结果中显示列名。
- hive.cli.print.current.db：设置为true时，在Hive命令行提示符中显示当前数据库名。
- hive.metastore.warehouse.dir：指定Hive数据仓库的默认存储位置，通常为HDFS上的路径。

二、hive-env.sh

该配置文件用于设置Hive运行时的环境变量。以下是一些常见的配置项：

HADOOP_HOME：指定Hadoop的安装目录。Hive作为Hadoop的客户端，需要知道Hadoop的安装位置。
HIVE_CONF_DIR：指定Hive配置文件的存储目录。默认情况下，Hive会在$HIVE_HOME/conf目录下查找配置文件。
HADOOP_HEAPSIZE：设置Hadoop进程的堆内存大小。这个参数对于调整Hive查询的性能很重要。

三、hive-log4j2.properties

该配置文件用于设置Hive的日志记录。以下是一些常见的配置项：

日志文件的存储位置：通过修改property.hive.log.dir的值来指定日志文件的存储位置。
日志级别：可以调整不同组件的日志级别，以便在调试和监控时获取更详细的日志信息。

四、hive-default.xml

该文件包含了Hive的默认配置信息。通常情况下，用户不需要直接修改这个文件，而是通过在hive-site.xml中添加或覆盖相应的配置项来自定义Hive的配置。

五、其他配置文件

除了上述主要配置文件外，Hive还可能包含其他配置文件，如hive-exec-site.xml（用于配置Hive的执行引擎）等。这些配置文件通常包含针对特定功能的配置信息，用户可以根据需要进行相应的配置。

六、配置文件的查找和修改

查找配置文件：默认情况下，Hive的配置文件位于$HIVE_HOME/conf目录下。用户可以通过环境变量HIVE_CONF_DIR来指定其他配置文件的位置。
修改配置文件：使用文本编辑器打开相应的配置文件，并根据需要进行修改。修改完成后，需要重启Hive服务以使配置生效。

综上所述，Hive的配置文件对于Hive的运行和性能调优至关重要。用户需要根据自己的需求和环境进行相应的配置，以确保Hive能够正常运行并发挥出最佳性能。

秒客网