在数据库中有一批数据,但是由于数据入库之前某些不当的操作引入了一些重复的数据,需要将这些重复的数据删除。数据的结构大概是下面的样子
CREATE TABLE [dbo].[aaa](
[id] [int] IDENTITY(1,1) NOT NULL,
[fileName] [varchar](50) NULL,
[fileSize] [int] NULL,
CONSTRAINT [PK_aaa] PRIMARY KEY CLUSTERED
(
[id] ASC
)
)
其中fileName和FileSize重复的时候表示数据重复
按照fileName和fileSize进行分组
select fileSize,fileName from tb group by filesize,filename
找出最大的那条记录的id
上面的语句变成
select fileSize,fileName ,max(id) from tb group by filesize,filename
查找所有的id
select id from
(select fileSize,fileName ,max(id) id from tb group by filesize,filename ) a
删除重复的数据
delete from tb where id not in (
select id from
(select fileSize,fileName ,max(id) id from tb group by filesize,filename ) a
)
现在完成了重复数据的删除,主要是利用了找出某个分组中最大的那个id,其中包括了所有不重复的id,然后使用not in将需要保留的排除。