:id:一个python库,用于精确和可扩展的模糊匹配,重复数据删除和实体解析。-Python开发

时间:2024-06-14 06:24:34
【文件属性】:

文件名称::id:一个python库,用于精确和可扩展的模糊匹配,重复数据删除和实体解析。-Python开发

文件大小:221KB

文件格式:ZIP

更新时间:2024-06-14 06:24:34

Python Deep Learning

重复数据删除Python库重复数据删除是一个python库,它使用机器学习对结构化数据快速执行模糊匹配,重复数据删除和实体解析。 重复数据删除将帮助您:从重复数据删除Python库中删除重复项重复数据删除是一个python库,使用机器学习对结构化数据快速执行模糊匹配,重复数据删除和实体解析。 重复数据删除将帮助您:从名称和地址的电子表格中删除重复的条目,即使没有唯一的客户ID,也可以将带有客户信息的列表链接到具有订单历史记录的列表中,以获取广告系列贡献的数据库,并找出由同一个人做出的贡献,即使输入的名称略有不同


【文件预览】:
dedupe-master
----MANIFEST.in(45B)
----.github()
--------dependabot.yml(501B)
--------workflows()
----THANKS.md(384B)
----requirements.txt(35B)
----dedupe()
--------sampling.py(6KB)
--------levenshtein.py(1005B)
--------canonical.py(2KB)
--------predicates.py(14KB)
--------variables()
--------cpredicates.pyx(1KB)
--------canopy_index.py(2KB)
--------serializer.py(1KB)
--------convenience.py(9KB)
--------__init__.py(169B)
--------training.py(13KB)
--------index.py(469B)
--------blocking.py(7KB)
--------labeler.py(16KB)
--------core.py(13KB)
--------backport.py(340B)
--------datamodel.py(7KB)
--------_typing.py(1KB)
--------tfidf.py(998B)
--------api.py(53KB)
--------_init.py(303B)
--------clustering.py(12KB)
----CONTRIBUTING.md(368B)
----LICENSE(1KB)
----setup.cfg(76B)
----setup.py(3KB)
----README.md(5KB)
----docs()
--------Special-Cases.rst(812B)
--------Variable-definition.rst(13KB)
--------_templates()
--------Bibliography.rst(882B)
--------Choosing-a-good-threshold.rst(2KB)
--------conf.py(8KB)
--------requirements.txt(128B)
--------How-it-works.rst(2KB)
--------index.rst(4KB)
--------Makefile(7KB)
--------API-documentation.rst(7KB)
--------Making-smart-comparisons.rst(7KB)
--------Matching-records.rst(6KB)
--------Grouping-duplicates.rst(2KB)
--------_static()
----tests()
--------test_core.py(7KB)
--------canonical.py(3KB)
--------test_api.py(5KB)
--------test_tfidf.py(887B)
--------canonical_gazetteer.py(3KB)
--------duplicateCluster_memory_case.py(1KB)
--------test_predicates.py(4KB)
--------test_memory.sh(194B)
--------exampleIO.py(1KB)
--------test_price.py(226B)
--------datasets()
--------test_sampling.py(2KB)
--------test_canonical.py(3KB)
--------test_dedupe.py(13KB)
--------test_labeler.py(2KB)
--------test_blocking.py(5KB)
--------canonical_matching.py(3KB)
--------test_serializer.py(2KB)
--------test_training.py(3KB)
----CONTRIBUTORS.md(57B)
----.readthedocs.yml(547B)
----CODE_OF_CONDUCT.md(3KB)
----.gitignore(377B)
----pyproject.toml(83B)
----CHANGELOG.md(7KB)
----.coveragerc(48B)

网友评论