Hive通过查询语句向表中插入数据注意事项

时间:2021-09-20 00:08:19

最近在学习使用Hive(版本0.13.1)的过程中,发现了一些坑,它们或许是Hive提倡的比关系数据库更加*的体现(同时引来一些问题),或许是一些bug。总而言之,这些都需要使用Hive的开发人员额外注意。本文旨在列举我发现的3个通过查询语句向表中插入数据过程中的问题,希望大家注意。

为了验证接下来出现的问题,需要先准备两张表employees和staged_employees,并准备好测试数据。首先使用以下语句创建表employees:

  1. create table employees (
  2. id int comment 'id',
  3. name string comment 'name')
  4. partitioned by (country string, state string)
  5. row format delimited fields terminated by ',';

employees的结构比较简单,有id、name、country、state四个字段,其中country和state都是分区字段。特别需要提醒的是这里显示的给行格式指定了字段分隔符为逗号,因为默认的字段分隔符\001不便于笔者准备数据。然后创建表staged_employees:

  1. create table staged_employees (
  2. id int comment 'id',
  3. user_name string comment 'user name')
  4. partitioned by (cnty string, st string);

staged_employees也有4个字段,除了字段名不同之外,和employees的4个字段的含义是相同的。

我们首先使用以下语句给employees的country等于US,state等于CA的分区加载一些数据:

  1. load data local inpath '${env:HOME}/test.txt'
  2. into table employees
  3. partition (country = 'US', state = 'CA');

再给employees的country等于CN,state等于BJ的分区加载一些数据:

  1. load data local inpath '${env:HOME}/test2.txt'
  2. overwrite into table employees
  3. partition (country = 'CN', state = 'BJ');

以上语句的执行过程如图1所示。

Hive通过查询语句向表中插入数据注意事项

图1 给employees加载数据

最后我们看看employees中准备好的数据,如图2所示。

Hive通过查询语句向表中插入数据注意事项

图2 employees中准备好的数据

INSERT OVERWRITE的歧义

由于staged_employees中还没有数据,所以我们查询employees的数据,并插入staged_employees中:

  1. insert overwrite table staged_employees
  2. partition (cnty = 'US', st = 'CA')
  3. select * from employees e
  4. where e.country = 'US' and e.state = 'CA';

大家看看这条sql有没有问题?最终的执行结果如图3所示。

Hive通过查询语句向表中插入数据注意事项

图3 SemanticException [Error 10044]

由于图3中的文字太小,这里把这些错误提示信息列在下边:

  1. FAILED: SemanticException [Error 10044]: Line 1:23 Cannot insert into target table because column number/types are different ''CA'': Table insclause-0 has 2 columns, but query has 4 columns.

我们的sql应该没有问题吧?仔细查看提示信息,说是“表只有2列,但是查询有4列”。刚才说过,我建的两张表除了字段名称的差异,其结构完全一样。两张表都有4个字段(2个普通字段和2个分区字段),为什么说staged_employees只有2列呢?这是因为Hive遵循读时模式且遵循相对宽松的语法,在插入或装载数据时,不会验证数据与表的模式是否匹配。只有在读取数据时才会验证。因此在向表staged_employees插入数据时不会验证,而查询读取employees表中的数据时会验证。我对sql进行了调整,调整后的清单如下:

  1. insert overwrite table staged_employees
  2. partition (cnty = 'US', st = 'CA')
  3. select e.id, e.name from employees e
  4. where e.country = 'US' and e.state = 'CA';

执行这条sql的过程如图4所示。

Hive通过查询语句向表中插入数据注意事项

图4 正确执行insert overwrite

我们看看staged_employees表中,现在有哪些数据(如图5所示):

Hive通过查询语句向表中插入数据注意事项

图5 staged_employees中的数据

熟悉MySQL等关系型数据库的同学可能要格外注意此问题了!

FROM ... INSERT ... SELECT的歧义

本节正式开始之前,向employees表中再加载一些数据:

  1. load data local inpath '${env:HOME}/test3.txt'
  2. into table employees
  3. partition (country = 'CA', state = 'ML');

执行上面sql的过程如图6所示。

Hive通过查询语句向表中插入数据注意事项

图6 加载新的数据

这时表employees的数据如图7所示。

Hive通过查询语句向表中插入数据注意事项

图7

Hive提供了一种特别的INSERT语法,我们不妨先看看其使用方式,sql如下:

  1. from employees e
  2. insert into table staged_employees
  3. partition (cnty = 'CA', st = 'ML')
  4. select * where e.country = 'CA' and e.state = 'ML';

执行这条sql的过程如图8所示。

Hive通过查询语句向表中插入数据注意事项

图8 SemanticException [Error 10044]

可以看到这里再次出现了之前提到的问题,我们依然按照之前的方式进行修改,sql如下:

  1. from employees e
  2. insert into table staged_employees
  3. partition (cnty = 'CA', st = 'ML')
  4. select e.id, e.name where e.country = 'CA' and e.state = 'ML';

现在执行这条sql,发现可以成功执行,如图9所示。

Hive通过查询语句向表中插入数据注意事项

图9

现在来看看staged_employees中的数据(如图10所示),看来的确将分区数据插入了。

Hive通过查询语句向表中插入数据注意事项

图10 staged_employees中的数据

FROM ... INSERT ... SELECT存在bug

我们继续使用FROM ... INSERT ... SELECT语法向staged_employees中插入数据,sql如下:

  1. from employees e
  2. insert into table staged_employees
  3. partition (cnty = 'US', st = 'CA')
  4. select e.id, e.name where e.country = 'US' and e.state = 'CA';

这条sql很明显是向staged_employees中再次插入country等于US,state等于CA分区的数据,根据INSERT INTO的通常含义,应当是向表中追加,我们执行这段sql来验证一下,如图11所示。

Hive通过查询语句向表中插入数据注意事项

图11

我们看看这时staged_employees中的数据,如图12所示。

Hive通过查询语句向表中插入数据注意事项

图12

的确印证了,INSERT INTO是用于追加的。

我们将sql进行调整,即将INSERT INTO改为INSERT OVERWRITE:

  1. from employees e
  2. insert overwrite table staged_employees
  3. partition (cnty = 'US', st = 'CA')
  4. select e.id, e.name where e.country = 'US' and e.state = 'CA';

执行这条sql的过程如图13所示。

Hive通过查询语句向表中插入数据注意事项

图13

我们看看这时staged_employees中的数据,如图14所示。

Hive通过查询语句向表中插入数据注意事项

图14

这说明INSERT OVERWRITE是用于覆盖的。

根据官方文档说明,这种FROM
... INSERT ... SELECT语法中的INSERT ...
SELECT是可以有多个的,于是我编写以下sql,用来向表staged_employees中覆盖“country等于CA,state等于ML”分区的数据,并且覆盖“country等于US,state等于CA”分区的数据。

  1. from employees e
  2. insert overwrite table staged_employees
  3. partition (cnty = 'US', st = 'CA')
  4. select e.id, e.name where e.country = 'US' and e.state = 'CA'
  5. insert overwrite table staged_employees
  6. partition (cnty = 'CA', st = 'ML')
  7. select e.id, e.name where e.country = 'CA' and e.state = 'ML';

执行以上sql的过程如图15所示。

Hive通过查询语句向表中插入数据注意事项

图15

由于都是覆盖更新,所以staged_employees中的数据并未发生改变。

根据官方文档,以上sql中还可以将INSERT OVERWRITE和INSERT INTO进行混用,sql如下:

  1. from employees e
  2. insert overwrite table staged_employees
  3. partition (cnty = 'US', st = 'CA')
  4. select e.id, e.name where e.country = 'US' and e.state = 'CA'
  5. insert into table staged_employees
  6. partition (cnty = 'CN', st = 'BJ')
  7. select e.id, e.name where e.country = 'CN' and e.state = 'BJ';

这段sql将覆盖“country等于US,state等于CA”分区的数据,并且追加“country等于CN,state等于BJ”分区的数据。执行这段sql的过程如图16所示。

Hive通过查询语句向表中插入数据注意事项

图16

最后,我们来看看staged_employees中的数据,如图17所示。

Hive通过查询语句向表中插入数据注意事项

图17

从图17中看到,“country等于CN,state等于BJ”分区的数据如我们所愿追加到表staged_employees中了。“country等于US,state等于CA”分区的数据并没有被覆盖,而是追加。这很明显是一个bug,希望大家注意!

转自:http://blog.csdn.net/beliefer/article/details/51860510

Hive通过查询语句向表中插入数据注意事项的更多相关文章

  1. Hive通过查询语句向表中插入数据过程中发现的坑

    前言 近期在学习使用Hive(版本号0.13.1)的过程中,发现了一些坑,它们也许是Hive提倡的比关系数据库更加*的体现(同一时候引来一些问题).也许是一些bug.总而言之,这些都须要使用Hive ...

  2. 6-02使用SQL语句向表中插入数据

    插入语句的语法: INSERT INTO 表() VALUES(值列表) 注意事项: 1:每次插入一行数据,不能只插入半行或几列数据. 2:每一个数据值的数据类型.精度和小数位数必须与相应的列匹配. ...

  3. oralce使用INSERT语句向表中插入数据

    INSERT   INTO    table[ (column [, column. . .])] VALUES            (value [,value . . .]); v  插入的数据 ...

  4. SQL语句 在一个表中插入新字段

    SQL语句 在一个表中插入新字段: alter table 表名 add 字段名 字段类型 例: alter table OpenCourses add Audio varchar(50)alter ...

  5. 第18课-数据库开发及ado.net 连接数据库.增.删.改向表中插入数据并且返回自动编号.SQLDataReade读取数据

    第18课-数据库开发及ado.net 连接数据库.增.删.改向表中插入数据并且返回自动编号.SQLDataReade读取数据 ADO.NET 为什么要学习? 我们要搭建一个平台(Web/Winform ...

  6. 初学者使用MySQL_Workbench 6.0CE创建数据库和表,以及在表中插入数据。

    标签: mysqlworkbench数据库 2013-10-09 20:17 19225人阅读 评论(14) 收藏 举报  分类: mysql(1)  版权声明:本文为博主原创文章,未经博主允许不得转 ...

  7. EF Core中,通过实体类向SQL Server数据库表中插入数据后,实体对象是如何得到数据库表中的默认值的

    我们使用EF Core的实体类向SQL Server数据库表中插入数据后,如果数据库表中有自增列或默认值列,那么EF Core的实体对象也会返回插入到数据库表中的默认值. 下面我们通过例子来展示,EF ...

  8. 向mysql数据表中插入数据失败的原因

    1.案例代码: $sql1="insert into content(category,subject,content,username,release_date) values('{$ca ...

  9. 触发器修改后保存之前的数据 表中插入数据时ID自动增长

    create or replace trigger t before update on test5 for each rowbegin insert into test55 values (:old ...

随机推荐

  1. geotrellis使用(二十)geotrellis1.0版本新功能及变化介绍

    目录 前言 变化情况介绍 总结 一.前言        之前版本是0.9或者0.10.1.0.10.2,最近发现更新成为1.0.0-2077839.1.0应该也能称之为正式版了吧.发现其中有很多变化, ...

  2. canvas画布属性globalAlpha 和 createRadialGradient函数出现的设置问题

    今天用canvas做了一个页面特效,呼呼,在做的过程中发现createRadialGradient 和 globalAlpha这2个属性一起使用导入不能实现透明度问题,首先把createRadialG ...

  3. struts2文件上传,文件类型 allowedTypes

    struts2文件上传,文件类型 allowedTypes 1 '.a' : 'application/octet-stream', 2 '.ai' : 'application/postscript ...

  4. openssl对数组加密解密的完整实现代码

    本例是用C实现的对一个数组进行加密,加密到第二个数组,然后解密到另一个数组的完整实现代码. #include <stdio.h> #include <string.h> #in ...

  5. 关于微信的jsapi&lowbar;ticket的获取方法&semi;

    对于一个从前端转到后端的开发人员来说,这个玩意儿开始的时候是有点郁闷:不过明白原理之后就简单了, 获取jsapi_ticket:必须先获取access_token; 微信开发文档说access_tok ...

  6. iOS实践01

    去年放假之前大概完成了新浪微博项目,到现在也忘得差不多了,打算在重新写一遍.之前的一些笔记在新浪的博客SleenXiu,在这主要是把新浪微博以随笔的形式写在这,方便以后的复习. 先看看之前主要完成的几 ...

  7. SQL 逻辑优化 case when 转为 union all

    通常数据库的优化从硬件层面去考虑可分为4个方面: CPU:即降低计算复杂度,如减少sql各类聚合函数,窗口函数,case when等. IO :(较少查询结果集过程中对数据的访问量.数据优化很大程度从 ...

  8. OAuth 2&period;0 认证的原理与实践

    摘要: 使用 OAuth 2.0 认证的的好处是显然易见的.你只需要用同一个账号密码,就能在各个网站进行访问,而免去了在每个网站都进行注册的繁琐过程. 本文将介绍 OAuth 2.0 的原理,并基于 ...

  9. apm固定翼调试方法

    APM飞控传说是大神的神器新手的噩梦,APM是个便宜又好用的飞控~刚开始给我的天行者X5按APM飞控的时候也查询搜索了很多,参数值,修改和混控和混控量的修改翻遍了资料发现咱们论坛教程比较少,所以开帖总 ...

  10. vs 加载 dll 缓慢

    https://jingyan.baidu.com/article/642c9d34e25cc2644b46f74b.html http://www.it610.com/article/2611781 ...