使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作

时间:2022-09-20 22:57:53

http://www.cnblogs.com/wgp13x/p/4934521.html 内容一样,样式好的版本。

使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作

标签: Hive Impala Elasticsearch Hadoop SQL Elasticsearch for Apache Hadoop


摘要:

使用Elasticsearch-SQL可以对存储在Elasticsearch中的数据执行简单的SQL查询操作,然而并不支持多表join等联接查询。

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。

因此如果Hive可以从Elasticsearch中取数据,并结合Hive的SQL查询功能,便能做到较为复杂的SQL查询操作。

我们的目标是:

  1. 支持Elasticsearch多表联接查询;
  2. 结合Elasticsearch搜索引擎提高SQL查询效率。

基础环境

CentOS-6.5

hive:hive-0.13.1+cdh5.3.6+397

impala:impala-2.1.5+cdh5.3.6+0

spark:spark-1.2.0+cdh5.3.6+379

elasticsearch:elasticsearch-1.7.1

elasticsearch-hadoop-hive:elasticsearch-hadoop-hive-2.1.1

Elasticsearch简介

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。它基于RESTful web接口,提供实时、稳定、可靠的分布式服务。

Elasticsearch的数据类型

ES使用JSON作为数据交互格式,所以简单来说,JSON支持的数据类型,ES都支持。

String: string
Whole number: byte, short, integer, long
Floating point: float, double
Boolean: boolean
Date: date

除了以上Core Types(核心数据类型),还有:Array Type、Object Type、Root Object Type、Nested Type、IP Type、Geo-point Type、Geo Shap Type、Attachment Type等。

Solr的数据类型

相应的Solr的数据类型有:

| BCDIntField | BCDLongField | BCDStrField | BinaryField | BoolField |

| -------- | ----- | ---- |

|二进制整形字段|二进制长整形字段|二进制字符型字段|二进制数据| 包含true或者false,值的第一个字符如果是1、t、T均表示true,其他为false

|ByteField|DateField|DoubleField|ExternalFileField|FloatField

|一个字节数据|一个精确到毫秒的时间值|

|IntField|Location|LongField|Point|RandomSortField|

| |方位搜索用到,存经纬度值||N维点搜索,在蓝图或者CAD图中使用|不包含值,当查询时按这种类型的字段排序时会产生随机排序。使用该特性时需要是一个动态字段|

|ShortField|StrField|TextField|UUIDField

||UTF-8编码的字符串或Unicode|文本类型,一般包含多个单词或汉字|唯一识别码,单传入的值是“NEW”时,Solr将为其创建1个UUID值

数据存储在Elasticsearch上,使用Hive执行SQL语句

要打通Elasticsearch与Hive,需要Elasticsearch for Apache Hadoop下的elasticsearch-hadoop-hive。

Elasticsearch for Apache Hadoop提供了三类解决方案:Elasticsearch on YARN、repository-hdfs、elasticsearch-hadoop proper。

详情查看:Elasticsearch for Apache Hadoop

创建Hive外部表

先有Hive再有Elasticsearch

在Elasticsearch中并无表,甚至并无Elasticsearch服务时,可以通过执行以下语句在Hive中创建一个新的外部表。

#在Hive中创建一个新的外部表
hive> CREATE EXTERNAL TABLE hive_es_angel(
id BIGINT,
name STRING)
STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES('es.nodes'='192.168.181.190','es.resource' = 'indexname/typename');

这里指定了ES的地址与索引名和类型名(index-type)。通过执行此语句,便可以在Hive查看到结构正确的表。

注意

elasticsearch-hadoop will always convert Hive column names to lower-case,就是说建立起的Hive表中所有字段均变为小写。

在执行此语句后,并不会在ElasticSearch中建立指定的索引与类型,只有当后续在Hive中执行SQL插入语句时,才会在ElasticSearch中建立指定的索引与类型,并插入相关数据。

执行此语句并不会抛出错误,这与HBase和Hive建立关联时的情况不一样,创建HBase外部表时需要查看HBase中信息。 更多细节可以查看《使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作》一文。

先有Elasticsearch再有Hive

在ElasticSearch中已有索引和类型,甚至在其中存储有数据时,我们可以在Hive中直接对ElasticSearch中数据进行操作。

即是在Hive中执行以上创建ES外部表的命令,即可以在Hue中看到ElasticSearch中的数据。

以下是几种典型的创建Hive外部表命令:

  • 在Hive指定decimal数据类型
CREATE EXTERNAL TABLE hive_es_decimal(
price DECIMAL(12,2) )
STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES('es.nodes'='192.168.181.160','es.resource' = 'indexname/typename');

默认情况下,是以列名称与ES映射的,注意:elasticsearch-hadoop will always convert Hive column names to lower-case,此时ES列名也必须小写,否则映射不上。

经验证,以上语句有问题。如Hive定义为Decimal,而ES只能Double,会出现org.apache.hadoop.hive.serde2.io.DoubleWritable cannot be cast to org.apache.hadoop.hive.serde2.io.HiveDecimalWritable错误。

  • 指定列映射关系
CREATE EXTERNAL TABLE hive_es_map(
price DOUBLE,
itemid BIGINT,
myname STRING
)
STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler'
TBLPROPERTIES('es.nodes'='192.168.181.160','es.resource' = 'indexname/typename','es.mapping.names' = 'itemid:itemId, myname:myName, devicenumber:deviceNumber');

在创建Hive外部表时指定映射关系时,也需要对应好数据类型,否则也会出现类似数据类型转换失败错误。

注意

从ES的date数据类型转换到Hive的date/timestamp数据类型,均出错,出错信息为:java.io.IOException: java.lang.IllegalArgumentException: 2015-06-03T14:54:46+0800

向Elasticsearch写

hive> add jar /opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/lib/hive/lib/elasticsearch-hadoop-hive-2.1.1.jar;
#向ES中导入Hive中表sample_07数据
hive> INSERT OVERWRITE TABLE hive_es_test
SELECT s.id, s.code
FROM sample_07 s;

当Elasticsearch中不存在相应索引时,经过执行以上插入语句,在Elasticsearch中就会创建一个新索引:indexname,新类型:typename(当然是在Hive创建新外部表时指定好的),数据也已经添加入其中。

没有指定列映射类型时,下面是部分默认情况下的Hive与ElasticSearch数据类型映射关系。

Hive ES 默认映射结果
bigint long 无问题
timestamp date 无问题
double double 无问题
date string 有问题
decimal string 有问题

注意

可以看到有问题的映射是两端不能匹配的映射。当存在有问题的映射时,在Hive中执行SELECT * FROM table_decimal时会抛出异常:

Failed with exception java.io.IOException:org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.hive.serde2.io.HiveDecimalWritable

即数据类型从ElasticSearch到Hive数据类型转换失败。可见,在使用Hive对存储在ElasticSearch中的数据进行操作时,要注意使用双方均支持的数据类型。

从Elasticsearch读

我们选择以下几条有代表性的SQL查询语句,来验证使用Hive可以对存储在Elasticsearch中的数据进行正确的查询操作。

where子句

hive> add jar /opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/lib/hive/lib/elasticsearch-hadoop-hive-2.1.1.jar;
hive> select count(*) from hive_es_angel where id>1000;

在执行此语句时,可以看到map-reduce的执行过程:

Hadoop job information for Stage-1: number of mappers: 5; number of reducers: 1
2015-10-15 14:30:28,181 Stage-1 map = 0%, reduce = 0%
2015-10-15 14:30:38,623 Stage-1 map = 2%, reduce = 0%, Cumulative CPU 4.07 sec
2015-10-15 14:30:39,678 Stage-1 map = 4%, reduce = 0%, Cumulative CPU 8.8 sec
2015-10-15 14:30:41,766 Stage-1 map = 5%, reduce = 0%, Cumulative CPU 9.36 sec

这说明,Hive在执行此语句时,并没有用到Elasticsearch建立的索引,以使查询效率更高,而是将Elasticsearch相应数据全部获取下来。

注意

Hive并没有用到Elasticsearch查询高效的好处。

普通表与外表关联

hive> add jar /opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/lib/hive/lib/elasticsearch-hadoop-hive-2.1.1.jar;
hive> select * from hive_es_angel left join sample_08 on hive_es_angel.name=sample_08.code;

其中sample_08表是Hive普通表,hive_es_angel是数据存储在HBase中的Hive外表。

经验证,通过执行上面语句,可以将Hive普通表与Hive的Elasticsearch外表进行正确的关联。

这样一来,ES的SQL插件elasticsearch-sql所不能完成的join等查询语句,便可以通过Hive很好的执行了。

Double数据类型求和

hive> add jar /opt/cloudera/parcels/CDH-5.3.6-1.cdh5.3.6.p0.11/lib/hive/lib/elasticsearch-hadoop-hive-2.1.1.jar;
hive> SELECT SUM(field_double) FROM hive_es_double;

由于ElasticSearch并不支持decimal数据类型,故只能在Hive中对小数列创建double数据类型,这时使用Hive也无法进行精确求和,这在需要进行小数精确统计时,是一大问题。

Solr也有此缺陷,可见目前ES、Solr天生不适合进行精确计算。故将数据放在ES中,使用Hive或Impala进行SQL精确统计,并非一个好办法。

数据存储在Elasticsearch上,使用Impala执行SQL语句

hive中建立的普通表,impala可以读取使用。执行join语句时,impala明显比hive快很多。在impala中执行INVALIDATE METADATA 、 REFRESH table_name语句以便 Impala 识别新的或已更改的数据。

但是,对于EXTERNAL TABLE数据存放在ES上的,Hive SQL可以正确执行,Impala SQL执行不正确,出错信息如下所示。

ERROR: AnalysisException: Failed to load metadata for table: default.hive_table
CAUSED BY: TableLoadingException: Unrecognized table type for table: default. es_table

可见使用elasticsearch-hadoop来做Impala计算,是不可行的。相比较下,数据存储在HBase中,使用Impala执行SQL语句却没有问题。具体可以查看《使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作》一文。

综上所述

数据存储在Elasticsearch中,使用Hive进行SQL操作,并不是一个好主意,这是由于ES的数据类型所限导致的ES与Hive的数据类型对应问题,并且Hive并不能用到Elasticsearch建立的索引的高效查询好处。虽然以上方案可以解决使用Hive对Elasticsearch较复杂SQL语句查询,但不方便也不高效,且Impala也不能支持。

故,目标1达成,但目标2没有达成。

博客园既不支持目录,也不支持表格,真是不舒服。我在考虑要不要换个地方发表。

嫌样式不好的,大家看这篇吧:http://www.cnblogs.com/wgp13x/p/4934521.html内容一样,样式稍好看些。

信息系统集成项目管理人员资质证书还有公司需要的啊?挂靠私聊。

使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作

使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作的更多相关文章

  1. 使用Hive或Impala执行SQL语句,对存储在HBase中的数据操作

    CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...

  2. 使用Hive或Impala执行SQL语句,对存储在Elasticsearch中的数据操作(二)

    CSSDesk body { background-color: #2574b0; } /*! zybuluo */ article,aside,details,figcaption,figure,f ...

  3. easyui datagrid 禁止选中行 EF的增删改查(转载) C# 获取用户IP地址(转载) MVC EF 执行SQL语句(转载) 在EF中执行SQL语句(转载) EF中使用SQL语句或存储过程 .net MVC使用Session验证用户登录 PowerDesigner 参照完整性约束(转载)

    easyui datagrid 禁止选中行   没有找到可以直接禁止的属性,但是找到两个间接禁止的方式. 方式一: //onClickRow: function (rowIndex, rowData) ...

  4. sql语句更新某字段内容中部分数据

    使用到的sql 语句的关键字就是replace, 如下图,把带有zhangjun 的值替换成 user 使用的sql语句就是 update 表名 set 字段名=replace(字段名,‘替换字符内容 ...

  5. 在EntityFramework6中执行SQL语句

    在EntityFramework6中执行SQL语句 在上一节中我介绍了如何使用EF6对数据库实现CRDU以及事务,我们没有写一句SQL就完成了所有操作.这一节我来介绍一下如何使用在EF6中执行SQL语 ...

  6. hive -help hive命令行执行sql参数

    在shell命令行执行 hive -help 结果如下: -d,--define <key=value> Variable substitution to apply to Hive co ...

  7. 4&period;5 &period;net core下直接执行SQL语句并生成DataTable

    .net core可以执行SQL语句,但是只能生成强类型的返回结果.例如var blogs = context.Blogs.FromSql("SELECT * FROM dbo.Blogs& ...

  8. 三种执行SQL语句的的JAVA代码

    问题描述: 连接数据库,执行SQL语句是必不可少的,下面给出了三种执行不通SQL语句的方法. 1.简单的Statement执行SQL语句.有SQL注入,一般不使用. public static voi ...

  9. Entity Framework Code First执行SQL语句、视图及存储过程

    1.Entity Framework Code First查询视图 Entity Framework Code First目前还没有特别针对View操作的方法,但对于可更新的视图,可以采用与Table ...

随机推荐

  1. sencha touch打包成安装程序

    为了更好地向大家演示如何打包一个sencha touch的项目,我们用sencha cmd创建一个演示项目,如果你的sencha cmd环境还没有配置,请参照 sencha touch 入门系列 (二 ...

  2. PgSQL &&num;183&semi; 特性分析 &&num;183&semi; 谈谈checkpoint的调度

    在PG的众多参数中,参数checkpoint相关的几个参数颇为神秘.这些参数与checkpoint的调度有关,对系统的稳定性还是比较重要的,下面我们为大家解析一下,这要先从PG的数据同步机制谈起. P ...

  3. cocos2d-x 2&period;2 移植wp8遇到的坑

    这两天正在将之前的一款cocos2d游戏,移植到wp平台上,这里记录一下所遇到的问题以及解决方法. 我是用的cocos2d下面的例子程序进行修改的. 遇到的第一个问题是资源路径的问题,当时我把解决方案 ...

  4. uva 10994

    一开始想法太简单  错了好多遍 #include <cstdio> #include <cstdlib> #include <cmath> #include &lt ...

  5. HDU 4951 Multiplication table 阅读题

    链接:http://acm.hdu.edu.cn/showproblem.php?pid=4951 题意:给一个P进制的乘法表.行和列分别代表0~p-1,第i行第j*2+1和第j*2+2列代表的是第i ...

  6. swiper遇到的问题

    <!DOCTYPE html> <html> <head> <meta name="viewport" content="wid ...

  7. 关于微信小程序&lt&semi;radio-group&gt&semi;布局排列

    微信小程序更新以后今天<radio>全部变成垂直排列了,布局乱了. 一开始尝试给外层<view>添加display:flex;flex-direction:row:未果. 后来 ...

  8. chip

    1.芯片(chip.pas/cpp) [问题描述] 企鹅集成电路公司生产了一种大小为 2×3的芯片.每块芯片是从一块大小为N×M的硅片上切下来的,但由于原材料纯度问题,因而有若干的单位正方形并不能作为 ...

  9. 为Oracle GoldenGate准备数据库

    了解如何为Oracle GoldenGate准备数据库,包括如何配置连接和日志记录,如何在数据库中启用Oracle GoldenGate,如何设置闪回查询以及如何管理服务器资源. 为集成进程配置连接 ...

  10. 基于jQuery鼠标滚轮滑动到页面节点部分

    基于jQuery鼠标滚轮滑动到页面节点部分.这是一款基于jQuery+CSS3实现的使用鼠标滚轮或者手势滑动到页面节点部分特效.效果图如下: 在线预览   源码下载 实现的代码. html代码: &l ...