SharpDups:使用快速哈希,快速搜索使用C#并行MapReduce计算查找重复文件

时间:2024-05-18 10:17:29
【文件属性】:

文件名称:SharpDups:使用快速哈希,快速搜索使用C#并行MapReduce计算查找重复文件

文件大小:18KB

文件格式:ZIP

更新时间:2024-05-18 10:17:29

C#

夏普 通过使用C#进行并行处理来快速进行重复文件搜索。 该工具将使用Map / Reduce方法查找重复文件。 它接受文件列表,然后执行重复检查。 它可以轻松扩展以支持文件搜索过滤器等。 逻辑: 分组相同大小的文件 检查前/中/后字节以进行快速哈希 通过比较文件的头/中和末尾中的字节来对具有相同快速哈希的文件进行分组 为具有相同快速哈希的文件获取渐进式哈希,如果中间哈希不同,则丢弃剩余的比较 对具有相同完整散列的文件进行分组 方法: V1:使用顺序处理 V2:使用并行处理,使用5个工作线程将速度提高3倍 V3:使用并行处理和渐进式哈希 特征: 快速,通过MapReduce进行并行处理 速度非常快,大大减少了I / O读取,通常只读取所有内容的5-10%,而20GB,300K +文件只用了75秒。 现有方案 我们判断文件是否重复,一般是给两个需要比较的文件进行哈希,然后比较哈希值。


【文件预览】:
SharpDups-master
----Logic()
--------DupDetectorV2.cs(4KB)
--------DupDetectorV3.cs(8KB)
--------IDupDetector.cs(248B)
--------DupDetector.cs(3KB)
----Runner()
--------Program.cs(5KB)
----SharpDups.csproj(3KB)
----SharpDups.sln(986B)
----app.config(160B)
----Properties()
--------AssemblyInfo.cs(1KB)
----LICENSE(11KB)
----README.md(2KB)
----Model()
--------DupResult.cs(408B)
--------FileItem.cs(211B)
--------DupItem.cs(432B)
--------Duplicate.cs(164B)
----Infrastructure()
--------HashTool.cs(2KB)
--------ExtensionMethods.cs(640B)

网友评论