hive 删除某个分区中部分数据

时间:2025-02-17 07:21:05

目录

一、需求

二、思路

三、补充


一、需求

删除 hive 表中某个分区中的部分数据(不是删除该分区)

二、思路

1、数据库删除数据的本质其实是用新的数据去覆盖原有的表,只要新的数据中不含有你想删除的数据,就达到了删除的目的。

所以删除的语法是:

insert overwrite

2、删除分区表更复杂的一点是,要带上分区的限制:

  1. insert overwrite table sanmei_db.sanmei_example partition(dt='2020-12-18')
  2. select ...

3、此外,写 select * 不对,要写明除分区字段的所有字段。比如,下面的写法会报错:

(假设我的需求是删除 2020.12.18 日分区中 count 字段超过 200 的数据)

  1. insert overwrite table sanmei_db.sanmei_example partition(dt='2020-12-18')
  2. select * from sanmei_db.sanmei_example
  3. where dt = '2020-12-18' and count < 200;

上述代码报错:

SQL 错误 [10044] [42000]: Error while compiling statement: FAILED: SemanticException [Error 10044]: Line 1:23 Cannot insert into target table because column number/types are different ''2020-12-18'': Table insclause-0 has 2 columns, but query has 3 columns.

因此,代码应该写成如下:

  1. insert overwrite table sanmei_db.sanmei_example partition(dt='2020-12-18')
  2. select hour, count from sanmei_db.sanmei_example
  3. where dt = '2020-12-18' and count < 200;

三、补充

Hive 版本中没有 delete 操作。

版本更新后支持,如果一个表要实现 update 和 delete 功能,该表就必须支持 ACID,而支持 ACID,就必须满足以下条件: 1、表的存储格式必须是 ORC(STORED AS ORC);

以上,问题解决~