文件名称:dedupe是一个使用机器学习在结构化数据上快速执行模糊匹配,重复数据删除和实体解析的Python库-python
文件大小:220KB
文件格式:ZIP
更新时间:2024-07-08 12:09:46
机器学习
dedupe是一个使用机器学习在结构化数据上快速执行模糊匹配,重复数据删除和实体解析的Python库 Dedupe Python 库 Dedupe 是一个 Python 库,它使用机器学习对结构化数据快速执行模糊匹配、重复数据删除和实体解析。 重复数据删除将帮助您: 从姓名和地址的电子表格中删除重复条目 将包含客户信息的列表链接到另一个包含订单历史记录的列表,即使没有唯一的客户 ID 获取活动贡献的数据库并找出哪些是由同一个人制作的,即使为每条记录输入的名称略有不同,重复数据删除也会吸收人工训练数据,并为您的数据集提出最佳规则,以快速自动查找类似记录,即使是非常大的数据库也是如此。 重要链接 文档:https://docs.dedupe.io/ 存储库:https://github.com/dedupeio/dedupe 问题:https://github.com/dedupeio/dedupe/issues 邮件列表:https://groups .google.com/forum/#!forum/open-source-deduplication 示例:https://gith
【文件预览】:
dedupe-master
----MANIFEST.in(45B)
----.readthedocs.yml(547B)
----.coveragerc(48B)
----pyproject.toml(83B)
----docs()
--------Special-Cases.rst(812B)
--------API-documentation.rst(7KB)
--------How-it-works.rst(2KB)
--------conf.py(8KB)
--------Grouping-duplicates.rst(2KB)
--------Matching-records.rst(6KB)
--------_templates()
--------Bibliography.rst(882B)
--------requirements.txt(128B)
--------Variable-definition.rst(13KB)
--------Makefile(7KB)
--------Choosing-a-good-threshold.rst(2KB)
--------Making-smart-comparisons.rst(7KB)
--------index.rst(4KB)
--------_static()
----.github()
--------dependabot.yml(501B)
--------workflows()
----dedupe()
--------datamodel.py(7KB)
--------canonical.py(2KB)
--------sampling.py(6KB)
--------variables()
--------predicates.py(14KB)
--------core.py(13KB)
--------_typing.py(1KB)
--------cpredicates.pyx(1KB)
--------blocking.py(7KB)
--------levenshtein.py(1005B)
--------_init.py(303B)
--------__init__.py(169B)
--------tfidf.py(998B)
--------index.py(469B)
--------labeler.py(15KB)
--------canopy_index.py(2KB)
--------convenience.py(9KB)
--------clustering.py(12KB)
--------api.py(51KB)
--------serializer.py(1KB)
--------training.py(12KB)
--------backport.py(340B)
----tests()
--------canonical.py(3KB)
--------test_serializer.py(2KB)
--------exampleIO.py(1KB)
--------test_predicates.py(4KB)
--------test_blocking.py(5KB)
--------test_memory.sh(194B)
--------test_canonical.py(3KB)
--------canonical_gazetteer.py(3KB)
--------canonical_matching.py(3KB)
--------duplicateCluster_memory_case.py(1KB)
--------test_labeler.py(2KB)
--------test_api.py(4KB)
--------test_training.py(3KB)
--------test_dedupe.py(13KB)
--------test_sampling.py(2KB)
--------test_tfidf.py(887B)
--------test_core.py(7KB)
--------test_price.py(226B)
--------datasets()
----CONTRIBUTORS.md(57B)
----LICENSE(1KB)
----CONTRIBUTING.md(368B)
----setup.cfg(76B)
----requirements.txt(35B)
----setup.py(3KB)
----.gitignore(377B)
----CHANGELOG.md(7KB)
----CODE_OF_CONDUCT.md(3KB)
----README.md(5KB)
----THANKS.md(384B)