文件名称:weighted-levenshtein:加权Levenshtein库
文件大小:197KB
文件格式:ZIP
更新时间:2024-06-12 22:13:57
Python
加权左心室丁素 用例 现有的大多数Levenshtein库都不十分灵活:所有编辑操作的成本均为1。 但是,有时并非所有编辑都是一样的。 例如,如果您要进行OCR校正,则用“ 0”代替“ O”的成本要比用“ X”代替“ O”的成本低。 如果您要进行人为的错字校正,则也许用“ X”代替“ Z”的成本要低一些,因为它们在QWERTY键盘上彼此相邻。 该库通过允许用户为涉及字母的每种可能组合的编辑操作指定不同的权重,从而支持所有这些用例。 核心算法是用Cython编写的,这意味着它们运行起来非常快。 Levenshtein距离功能支持为插入字符,删除字符和替换字符设置不同的成本。 因此,Levenshtein距离非常适合检测OCR错误。 Damerau-Levenshtein距离功能支持设置不同的插入字符,删除字符,替换字符和转置字符的成本。 因此,Damerau-Levenshtein距
【文件预览】:
weighted-levenshtein-master
----MANIFEST.in(138B)
----README.rst(7KB)
----weighted_levenshtein()
--------clev.pyx(15KB)
--------clev.pxd(812B)
--------__init__.py(20B)
--------.gitignore(7B)
----.flake8(31B)
----LICENSE.txt(1KB)
----CONTRIBUTORS.txt(220B)
----.circleci()
--------config.yml(915B)
----requirements.txt(29B)
----test()
--------test.py(7KB)
--------__init__.py(0B)
----setup.py(2KB)
----docs()
--------make.bat(8KB)
--------conf.py(10KB)
--------index.rst(592B)
--------Makefile(7KB)
--------_build()
----.gitignore(2KB)
----.coveragerc(62B)