Hive 复习

时间:2023-11-28 15:20:26

Hive 复习

hive分为CLI(command line)(用的比较多)

JDBC/ODBC-ThriftServer

hiveServer(hive -service hiveserver),JDBC访问,一个客户端连接数,需要建立pool池,内存损耗极大,容易内存溢出(数据量太大不用)

web gui(基本不用)

Metastore (存储字段信息和数据存储HDFS的信息)

Complier(编译器):对sql查询语句进行语意分析并通过metastore中查找表和分区的元信息,生成执行计划。

Optimizer(优化器):优化HQL

Executor(执行器):对生成的执行计划进行执行

Hive 复习

hive -e ‘select * from dual’ 命令行执行(不进入hive command line) -i  “文件名”(add jar进行UDF的预先加载)

hive -f .sql(执行文件 不支持传递参数)

通过hive -e的封装成hiveF 可以传递无数参数

Hive 复习

hive优化

架构层面:

1 合理利用结果集(查询后结果加以利用,常用复杂或者低效统计统一给出,避免上层作业过多计算)

2 合理利用表分区(静态分区和动态分区)

HQL语法层面

执行计划

Hive参数层面(全局)

太暴力,很少用,有时候会起到不错效果

技巧

分表(把大数据的表脱离一些数据独立成别的表)

Hadoop 负载主要是 CPU负载和IO负载

两者可以相互转化ex:压缩(把IO转化为CPU)