如何从上万条记录中查找出相等的数据?谢谢!(内容见内)

时间:2021-06-19 23:24:33
数据是在txt格式文件里,一行是一条记录。格式为:

ID,姓名,性别,证件号,地址等。
如:(245,李三,100893421,上海......)

现在要根据证件号判断是否有重复记录。所有txt文件中记录条数大概有上万,请问如何判断有重复记录?谢谢!

有没有什么关于集合的类,包含一个判断自身有重复数据的函数?谢谢!

6 个解决方案

#1


写到数据库里去,然后再判断。

#2


先调整TXT格式,每个数据用TAB分隔,然后保存为*.CSV文件 ,用EXCEL打开保存
再导入到数据库中,如SQL SERVER 或ACCESS
----
打开查询分析器
select 证件号 from table group by 证件号 having count(证件号)>1

查出来的证件号就是有重复的



----------------------------------------------------------------------------------------
欢迎访问我的新站:http://www.FavNet.cn —— 专勤致精 想您所思 专业IT技术服务
展示技术实力,寻求合作伙伴、合作项目中……

#3



可以读出来后从字符串中找:",证件号,"

如果要查找多次的话,可以用个DataTable把它们装起来,设置索引后查询

#4


用String.Split函数先将文本分成一个数组
创建一个HashTable或字典,每加入一个证件号之前先判断是否存在,存在的话可以加入一个新的Datatable里

#5


2楼的方法很好啊

#6


谢谢楼上各位,怪我开始没说清楚。
是要从txt文件中提取数据再存储到数据库中,1,2,3楼的朋友是操作数据库,但是考虑到刚存入数据库还没找重复记录时,突然数据库中断,就没法对重复数据进行操作了。
最后还是用的HashTable ,谢谢4楼的朋友。同时也感谢1,2,3楼的朋友,让我扩宽了思路。谢谢。
结帖给分。(分不多,多多包涵)。

#1


写到数据库里去,然后再判断。

#2


先调整TXT格式,每个数据用TAB分隔,然后保存为*.CSV文件 ,用EXCEL打开保存
再导入到数据库中,如SQL SERVER 或ACCESS
----
打开查询分析器
select 证件号 from table group by 证件号 having count(证件号)>1

查出来的证件号就是有重复的



----------------------------------------------------------------------------------------
欢迎访问我的新站:http://www.FavNet.cn —— 专勤致精 想您所思 专业IT技术服务
展示技术实力,寻求合作伙伴、合作项目中……

#3



可以读出来后从字符串中找:",证件号,"

如果要查找多次的话,可以用个DataTable把它们装起来,设置索引后查询

#4


用String.Split函数先将文本分成一个数组
创建一个HashTable或字典,每加入一个证件号之前先判断是否存在,存在的话可以加入一个新的Datatable里

#5


2楼的方法很好啊

#6


谢谢楼上各位,怪我开始没说清楚。
是要从txt文件中提取数据再存储到数据库中,1,2,3楼的朋友是操作数据库,但是考虑到刚存入数据库还没找重复记录时,突然数据库中断,就没法对重复数据进行操作了。
最后还是用的HashTable ,谢谢4楼的朋友。同时也感谢1,2,3楼的朋友,让我扩宽了思路。谢谢。
结帖给分。(分不多,多多包涵)。