Hive 复习

Hive 复习

hive分为CLI（command line）（用的比较多）

JDBC/ODBC-ThriftServer

hiveServer（hive -service hiveserver），JDBC访问，一个客户端连接数,需要建立pool池,内存损耗极大,容易内存溢出（数据量太大不用）

web gui（基本不用）

Metastore （存储字段信息和数据存储HDFS的信息）

Complier（编译器）：对sql查询语句进行语意分析并通过metastore中查找表和分区的元信息,生成执行计划。

Optimizer（优化器）：优化HQL

Executor（执行器）：对生成的执行计划进行执行

Hive 复习

hive -e ‘select * from dual’ 命令行执行（不进入hive command line） -i “文件名”（add jar进行UDF的预先加载）

hive -f .sql(执行文件不支持传递参数)

通过hive -e的封装成hiveF 可以传递无数参数

Hive 复习

hive优化

架构层面:

1 合理利用结果集（查询后结果加以利用,常用复杂或者低效统计统一给出,避免上层作业过多计算）

2 合理利用表分区(静态分区和动态分区)

HQL语法层面

执行计划

Hive参数层面(全局)

太暴力,很少用,有时候会起到不错效果

技巧

分表（把大数据的表脱离一些数据独立成别的表）

Hadoop 负载主要是 CPU负载和IO负载

两者可以相互转化ex：压缩（把IO转化为CPU）