Impala简介PB级大数据实时查询分析引擎

1、Impala简介

　　• Cloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。
　　• 基于Hive使用内存计算，兼顾数据仓库、具有实时、批处理、多并发等优点
　　• 是CDH平台首选的PB级大数据实时查询分析引擎

　　　官网：http://www.cloudera.com/products/apache-hadoop/impala.html

　　　　　　http://www.impala.io/index.html

　　下面是在基于单用户和多用户查询的时候，不同的查询分析器所使用的时间：

　　　　 Impala简介PB级大数据实时查询分析引擎

2、Impala的特点

　　• 1、基于内存进行计算，能够对PB级数据进行交互式实时查询、分析
　　• 2、无需转换为MR，直接读取HDFS数据
　　• 3、C++编写，LLVM统一编译运行
　　• 4、兼容HiveSQL
　　• 5、具有数据仓库的特性，可对hive数据直接做数据分析
　　• 6、支持Data Local
　　• 7、支持列式存储
　　• 8、支持JDBC/ODBC远程访问

　　　　 Impala简介PB级大数据实时查询分析引擎（相比于Hive，Impala不需要启动MapReduce直接同HDFS或HBase进行交互）

3、Impala 劣势

　　• 1、对内存依赖大
　　• 2、C++编写开源？！
　　• 3、完全依赖于hive
　　• 4、实践过程中分区超过1w 性能严重下下降
　　• 5、稳定性不如hive

4、Impala安装

　　• 安装方式：
　　　　– 1、ClouderaManager
　　　　– 2、手动安装（待续）

　　　　　　 Impala简介PB级大数据实时查询分析引擎

　　　　　　可以使用CDH安装，方便快捷，而且管理起来更加方便，下面是CDH安装以后的CDH管理界面：

　　　　　　 Impala简介PB级大数据实时查询分析引擎

5、Impala核心组件　

　　• Statestore Daemon
　　　　• 实例*1 - statestored
　　　　　　– 负责收集分布在集群中各个impalad进程的资源信息、各节点健康状况，同步节点信息.
　　　　　　– 负责query的调度
　　• Catalog Daemon
　　　　• 实例*1 - catalogd
　　　　　　– 分发表的元数据信息到各个impalad中
　　　　　　– 接收来自statestore的所有请求
　　• Impala Daemon
　　　　• 实例*N – impalad
　　　　　　– 接收client、hue、jdbc或者odbc请求、Query执行并返回给中心协调节点
　　　　　　– 子节点上的守护进程，负责向statestore保持通信，汇报工作

6、Impala架构

　　　　 Impala简介PB级大数据实时查询分析引擎

　　　　(1) 由Client发送一个执行SQL到任意一台Impalad的Query Planner
　　　　(2) 由Query Planner 把SQL发向Query Coordinator
　　　　(3) 由Query Coordinator 来调度分配任务到Impalad的所有节点
　　　　(4) 各个Impalad节点的Query Executor 进行执行SQL工作
　　　　(5) 执行SQL结束以后，将结果返回给Query Coordinator
　　　　(6) 再由Query Coordinator 将结果返回给Client

Impala 4、Impala JDBC

摘要: • 配置： – impala.driver=org.apache.hive.jdbc.HiveDriver – impala.url=jdbc:hive2://node2:21050/;auth=noSasl – impala.username= – impala.password=• 尽量使用Pr阅读全文

posted @ 2016-03-23 22:32 Bodi 阅读(297) | 评论 (0) 编辑

Impala 3、Impala、Hbase整合

摘要: Impala可以通过Hive外部表方式和HBase进行整合，步骤如下： • 步骤1：创建hbase 表，向表中添加数据 • 步骤2：创建hive表 • 步骤3：刷新Impala表阅读全文

posted @ 2016-03-23 22:28 Bodi 阅读(389) | 评论 (0) 编辑

Impala 2、Impala Shell 和 Impala SQL

摘要: 1、Impala 外部 Shell Impala外部Shell 就是不进入Impala内部，直接执行的ImpalaShell 例如通过外部Shell查看Impala帮助可以使用： $ impala-shell -h 这样就可以查看了；再例如显示一个SQL语句的执行计划： $ impala-shel阅读全文

posted @ 2016-03-23 21:50 Bodi 阅读(3849) | 评论 (1) 编辑

Impala 1、Impala理论

摘要: • Cloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。 • 基于Hive使用内存计算，兼顾数据仓库、具有实时、批处理、多并发等优点 • 是CDH平台首选的PB级大数据实时查询分析引擎 Impala简介PB级大数据实时查询分析引擎

阅读全文

秒客网

Impala简介PB级大数据实时查询分析引擎

相关文章