文件名称:重复数据删除:用于准确,可扩展的模糊匹配,记录重复数据删除和实体解析的python库
文件大小:221KB
文件格式:ZIP
更新时间:2024-02-26 05:09:02
python clustering dedupe record-linkage python-library
重复数据删除Python库 重复数据删除是一个python库,使用机器学习对结构化数据快速执行模糊匹配,重复数据删除和实体解析。 重复数据删除将帮助您: 从名称和地址的电子表格中删除重复的条目 将具有客户信息的列表链接到具有订单历史记录的列表,即使没有唯一的客户ID 收集竞选捐款的数据库,并找出同一个人所做的捐款,即使每个记录的名称输入略有不同 重复数据删除可吸收人工培训数据,并为您的数据集提供最佳规则,即使是非常大的数据库,也可以快速自动找到相似的记录。 重要连结 文档: : 仓库: : 问题: : 邮件列表: : forum/open-source- 范例:
【文件预览】:
dedupe-master
----setup.py(3KB)
----.gitignore(377B)
----requirements.txt(35B)
----.readthedocs.yml(547B)
----pyproject.toml(83B)
----MANIFEST.in(45B)
----CONTRIBUTING.md(368B)
----CODE_OF_CONDUCT.md(3KB)
----LICENSE(1KB)
----CHANGELOG.md(7KB)
----setup.cfg(76B)
----.github()
--------workflows()
--------dependabot.yml(501B)
----README.md(5KB)
----tests()
--------canonical.py(3KB)
--------test_canonical.py(3KB)
--------exampleIO.py(1KB)
--------test_blocking.py(5KB)
--------datasets()
--------test_dedupe.py(12KB)
--------test_training.py(3KB)
--------canonical_gazetteer.py(3KB)
--------test_core.py(7KB)
--------test_memory.sh(194B)
--------test_tfidf.py(887B)
--------test_sampling.py(2KB)
--------test_api.py(5KB)
--------test_labeler.py(2KB)
--------test_serializer.py(2KB)
--------test_price.py(226B)
--------duplicateCluster_memory_case.py(1KB)
--------test_predicates.py(4KB)
--------canonical_matching.py(3KB)
----dedupe()
--------variables()
--------training.py(13KB)
--------canonical.py(2KB)
--------__init__.py(169B)
--------convenience.py(9KB)
--------_init.py(303B)
--------levenshtein.py(1005B)
--------datamodel.py(7KB)
--------canopy_index.py(2KB)
--------blocking.py(7KB)
--------clustering.py(12KB)
--------backport.py(340B)
--------api.py(53KB)
--------serializer.py(905B)
--------tfidf.py(998B)
--------_typing.py(1KB)
--------index.py(469B)
--------labeler.py(16KB)
--------core.py(13KB)
--------cpredicates.pyx(1KB)
--------predicates.py(14KB)
--------sampling.py(6KB)
----.coveragerc(48B)
----THANKS.md(384B)
----docs()
--------_templates()
--------requirements.txt(128B)
--------Makefile(7KB)
--------Grouping-duplicates.rst(2KB)
--------index.rst(4KB)
--------Matching-records.rst(6KB)
--------conf.py(8KB)
--------Making-smart-comparisons.rst(7KB)
--------Special-Cases.rst(812B)
--------_static()
--------Choosing-a-good-threshold.rst(2KB)
--------Variable-definition.rst(13KB)
--------API-documentation.rst(7KB)
--------How-it-works.rst(2KB)
--------Bibliography.rst(882B)
----CONTRIBUTORS.md(57B)