Hive on Tez 的安装配置
- 0. 写在前面
- 1. 起源
- 2. Tez概述
- 3. 安装部署
- 4. 解决日志Jar包冲突
0. 写在前面
- Hadoop:Hadoop-2.9.2
- Hive:Hive-2.3.7
- Tez:Tez-0.9.0
1. 起源
Hortonworks在2014年左右发布了Stinger Initiative,并进行社区分享,为的是让Hive支持更多SQL,并实现更好的性能。
- 让Hive的查询功能更强大。增加类似OVER子句的分析功能,支持WHERE子查询,以及调整Hive的样式系统更多的符合标准的SQL模型;
- 优化Hive的请求执行计划,增加 Task 每秒处理记录的数量;
- 引入新的列式文件格式(ORC文件),提供一种更现代、高效和高性能的方式来储存Hive数据;
- 引入新的runtime框架——Tez,消除Hive的延迟以及吞吐量限制。Tez通过消除不必要的task、障碍同步和对HDFS的读写作业来优化Hive job;
2. Tez概述
Tez是Apache开源的支持 DAG(有向无环图)作业的计算框架,是支持Hadoop 2.x的重要引擎。它源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,分解后的元操作可以任意灵活组合,产生新的操作,这些操作经过一些控制程序组装后,可形成一个大的DAG作业。
Tez将 Map task 和 Reduce task 进一步拆分为如下图所示:
Tez的task由Input、processor、output阶段组成,可以表达所有复杂的map、 reduce操作,如下图:
Tez可以将多个有依赖的作业转换为一个作业(只需写一次HDFS,中间环节较 少),从而大大提升DAG作业的性能。Tez已被Hortonworks用于Hive引擎的优化, 经测试一般小任务比Hive MR 的2-3倍速度左右,大任务7-10倍左右,根据情况不同 可能不一样。
Tez+Hive仍采用MapReduce
计算框架,但对DAG的作业依赖关系进行了裁剪
,并将多个小作业合并成一个大作业,不仅减少了计算量,而且写HDFS次数也大大减少
。
3. 安装部署
前置芝士
官方推荐使用 Tez 和包中包含的预打包 Hadoop 库
的安装方式。包含所有依赖项的完整 tarball 是确保现有作业在集群滚动升级期间继续运行的更好方法。
安装
- 1、下载软件包:apache-tez-0.9.2-bin.tar.gz
- 2、解压缩
- 3、将tez的压缩包放到hdfs上
- 4、$HADOOP_HOME/etc/hadoop/ 下创建
tez-site.xml
文件,做如下配置:保存后将文件复制到集群所有节点
保存后将文件分发到集群所有节点
- 5、增加客户端节点的配置(/etc/profile)
- 6、Hive设置Tez执行
- 7、如果想默认使用Tez,可在$HIVE_HOME/conf目录下
hive-site.xml
中增加