文件名称:preDict:基于Commerce-Experts的SymSpell的闪电快速拼写校正模糊搜索库
文件大小:6.62MB
文件格式:ZIP
更新时间:2024-05-28 11:01:20
spellcheck fuzzy-search fuzzy-matching spell-check spelling-checker
preDict(CE)社区版 search | hub可实现大规模的快速独立于语言的拼写纠正 有关拼写纠正问题的一些基础知识 编辑距离 preDict基于拼写校正模糊搜索库并进行了一些自定义和优化: SymSpell的基本优点是对称删除拼写校正算法,该算法可减少给定编辑距离下编辑候选者生成和字典查找的复杂性。 与语言无关,它快了六个数量级(比标准的删除+转置+替换+插入方法快)。 另外,仅需要删除,而无需转置+替换+插入。 输入短语的转置+替换+插入被转换为字典项的删除。 替换和插入很昂贵,而且取决于语言:例如,中文有70,000个Unicode汉字! preDict定制 我们的主要目标是通过添加以下内容来提高准确性,同时保持不断增长的速度: 我们用加权的Damerau-Levenshtein实现替换了Damerau-Levenshtein实现:每个操作(删除,插入,交换,替换)可以
【文件预览】:
preDict-master
----pom.xml(1KB)
----spellcorrect-comparison()
--------pom.xml(2KB)
--------src()
--------.gitignore(47B)
----LICENSE(7KB)
----pre-dict-benchmark()
--------pom.xml(5KB)
--------src()
--------.gitignore(39B)
----.gitignore(40B)
----README.md(4KB)
----pre-dict-library()
--------pom.xml(2KB)
--------src()
--------.gitignore(312B)