文件名称:mergic:工作流支持可重复数据删除和合并
文件大小:7.65MB
文件格式:ZIP
更新时间:2024-06-12 07:43:05
Python
悲观的 工作流支持可重复数据删除和合并 假设您有一堆字符串,其中一些是不同的,但指的是同一件事。 也许只是一长串的清单,也许是您要合并的数据集中的两个关键列的内容。 David Copperfield Lance Burton Dave Copperfield Levar Burton 这是您可以使用mergic : 给mergic所有的标识符,每行一个。 如果它们在一个名为originals.txt的文件中: mergic calc originals.txt 您将看到有关mergic根据其默认距离函数可能产生的分组的输出。 (使用自定义距离功能很容易,请参见下文。) num groups, max group, num pairs, cutoff ---------------------------------------- 4, 1,
【文件预览】:
mergic-master
----.travis.yml(245B)
----README.rst(8KB)
----RLdata()
--------RLdata500dupes.csv(3KB)
--------RLdata500.R(612B)
--------README.md(53B)
--------RLdata500.csv(13KB)
----tennis()
--------rebuilt.json(26KB)
--------merge.csv(19KB)
--------diff.json(3KB)
--------Tennis-Major-Tournaments-Match-Statistics.zip(47KB)
--------groups.json(26KB)
--------requirements.txt(43B)
--------tennis_mergic.py(399B)
--------.mergic_cache(26.42MB)
--------README.md(8KB)
--------edited.json(26KB)
--------names.txt(25KB)
----setup.py(870B)
----.gitignore(237B)
----mergic()
--------test.py(4KB)
--------__init__.py(87B)
--------mergic.py(15KB)