最近帮运维组处理了一份急着上架的数据,大概有140万量,下面我们看一下是怎样处理的吧。
这批数据大部分都是重复的,经过处理的数据大概在30万左右,然后进行一对多合并处理,最后的数据量大概在1万左右。
下面提供了两种方法或思路,第一种思路是网上提供的比较多的一种,就是通过唯一性约束的字段进行排序,然后查询处理出来的这些数据都是重复数据的第一条,所以id必然是这些重复数据最小的,然后删除调这些重复数据中id不是最小的就可以得出筛选结果了。
当然数据上面设计到商业保密,这里我就自己创建一个demo了。
sql如下:
-
// 将重复数据的id最小的一条筛选出来,第二步进行删除
-
select id FROM haha
-
where CONCAT(namea,sex,num) in (
-
SELECT CONCAT(namea,sex,num) FROM haha
-
GROUP BY CONCAT(namea,sex,num)
-
HAVING count(id> 1)
-
)
-
-
//进行删除操作,删除冗余数据
-
DELETE FROM haha where id in (
-
select id FROM haha
-
where CONCAT(namea,sex,num) in (
-
SELECT CONCAT(namea,sex,num) FROM haha
-
GROUP BY CONCAT(namea,sex,num)
-
HAVING count(id> 1)
-
)
-
and id not in (
-
SELECT MIN(id) as id FROM haha
-
GROUP BY CONCAT(namea,sex,num)
-
HAVING COUNT(id > 1)
-
))
当然写sql的过程中也遇到一些错误,
1、select * from haha where id in (select id ,namea from haha ) select in 的右边只能是id ,所以namea 应该去掉,另外,name在MySql中显示关键字,所以这个字段命名的时候要注意一下,避免引起不必的麻烦或者错误。
2、ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your
这个错误是说sql语句中符号有错误,所以我们要检查一下标点符号,逗号是不是英文的,然后括号是不是多了或者少了
3、要注意的地方,MySql中是不允许直接删除调查询出来的数据的,所以我们这里查询出来的数据要存放在一个临时表中在删除
第二种方法,因为我们知道要处理的数据最终的结果大概在30万左右,这对于140万,去删除剩余的110万数据,显然我们只需要关注这30万数据就可以了,所以我们直接将查询出来的数据导入到一张新表里面,
-
create table finish as
-
select * FROM haha
-
where CONCAT(namea,sex,num) in (
-
SELECT CONCAT(namea,sex,num) FROM haha
-
GROUP BY CONCAT(namea,sex,num)
-
HAVING count(id> 1)
-
)
然后将数据进行1对多处理:
原数据是这样的:
结果如下: