文件名称:Python-dedupe是一个使用机器学习在结构化数据上快速执行模糊匹配重复数据删除和实体解析的Python库
文件大小:150KB
文件格式:ZIP
更新时间:2022-08-31 01:27:23
Python开发-机器学习
dedupe是一个使用机器学习在结构化数据上快速执行模糊匹配,重复数据删除和实体解析的Python库
【文件预览】:
dedupeio-dedupe-a20304e
----MANIFEST.in(19B)
----src()
--------cpredicates.pyx(1KB)
----THANKS.md(384B)
----requirements.txt(21B)
----dedupe()
--------crossvalidation.py(4KB)
--------sampling.py(6KB)
--------predicates.py(10KB)
--------variables()
--------serializer.py(1KB)
--------convenience.py(6KB)
--------__init__.py(145B)
--------training.py(14KB)
--------index.py(2KB)
--------blocking.py(3KB)
--------core.py(14KB)
--------backport.py(1KB)
--------datamodel.py(4KB)
--------tfidf.py(1KB)
--------api.py(39KB)
--------_init.py(308B)
--------clustering.py(7KB)
----.travis.yml(746B)
----LICENSE(1KB)
----setup.py(3KB)
----README.md(5KB)
----appveyor()
--------install.ps1(3KB)
----docs()
--------Special-Cases.rst(810B)
--------Variable-definition.rst(10KB)
--------Bibliography.rst(882B)
--------Choosing-a-good-threshold.rst(2KB)
--------common_dedupe_methods.rst(6KB)
--------conf.py(8KB)
--------common_recordlink_methods.rst(5KB)
--------How-it-works.rst(2KB)
--------index.rst(4KB)
--------Makefile(7KB)
--------API-documentation.rst(14KB)
--------Making-smart-comparisons.rst(7KB)
--------OSX-Install-Notes.rst(3KB)
--------Matching-records.rst(5KB)
--------common_gazetteer_methods.rst(5KB)
--------common_learning_methods.rst(4KB)
--------common_methods.rst(2KB)
--------Grouping-duplicates.rst(2KB)
----appveyor.yml(982B)
----tests()
--------test_core.py(8KB)
--------test_api.py(10KB)
--------test_tfidf.py(904B)
--------test_crossvalidation.py(2KB)
--------duplicateCluster_memory_case.py(1KB)
--------test_predicates.py(2KB)
--------test_memory.sh(194B)
--------exampleIO.py(1KB)
--------test_price.py(242B)
--------datasets()
--------test_sampling.py(2KB)
--------test_dedupe.py(14KB)
--------test_blocking.py(9KB)
--------test_serializer.py(2KB)
--------canonical_test.py(3KB)
--------canonical_test_matching.py(3KB)
--------test_training.py(484B)
----CONTRIBUTORS.md(57B)
----.gitignore(329B)
----CHANGELOG.md(3KB)
----.coveragerc(48B)