MySql百万级数据去重保留一份，一对多合并处理

最近帮运维组处理了一份急着上架的数据，大概有140万量，下面我们看一下是怎样处理的吧。

这批数据大部分都是重复的，经过处理的数据大概在30万左右，然后进行一对多合并处理，最后的数据量大概在1万左右。

下面提供了两种方法或思路，第一种思路是网上提供的比较多的一种，就是通过唯一性约束的字段进行排序，然后查询处理出来的这些数据都是重复数据的第一条，所以id必然是这些重复数据最小的，然后删除调这些重复数据中id不是最小的就可以得出筛选结果了。

当然数据上面设计到商业保密，这里我就自己创建一个demo了。

sql如下：





// 将重复数据的id最小的一条筛选出来，第二步进行删除




select id FROM haha




where CONCAT(namea,sex,num) in (



   SELECT CONCAT(namea,sex,num) FROM haha 



		GROUP BY CONCAT(namea,sex,num) 



		HAVING count(id> 1)



) 



 




//进行删除操作，删除冗余数据




DELETE FROM haha where id in (




select id FROM haha




where CONCAT(namea,sex,num) in (



   SELECT CONCAT(namea,sex,num) FROM haha 



		GROUP BY CONCAT(namea,sex,num) 



		HAVING count(id> 1)



) 




and id not in (




SELECT MIN(id) as id  FROM haha 




GROUP BY CONCAT(namea,sex,num) 




HAVING COUNT(id > 1)



))

当然写sql的过程中也遇到一些错误，

1、select * from haha where id in (select id ，namea from haha ) select in 的右边只能是id ，所以namea 应该去掉，另外，name在MySql中显示关键字，所以这个字段命名的时候要注意一下，避免引起不必的麻烦或者错误。

2、ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your

这个错误是说sql语句中符号有错误，所以我们要检查一下标点符号，逗号是不是英文的，然后括号是不是多了或者少了

3、要注意的地方，MySql中是不允许直接删除调查询出来的数据的，所以我们这里查询出来的数据要存放在一个临时表中在删除

第二种方法，因为我们知道要处理的数据最终的结果大概在30万左右，这对于140万，去删除剩余的110万数据，显然我们只需要关注这30万数据就可以了，所以我们直接将查询出来的数据导入到一张新表里面，





create table finish as





select * FROM haha




where CONCAT(namea,sex,num) in (



   SELECT CONCAT(namea,sex,num) FROM haha 



		GROUP BY CONCAT(namea,sex,num) 



		HAVING count(id> 1)



)

然后将数据进行1对多处理：

原数据是这样的：

结果如下：

秒客网

MySql百万级数据去重保留一份，一对多合并处理

相关文章