文件名称:java笔试题算法-SymSpell:通过对称删除拼写更正算法,拼写更正和模糊搜索速度提高100万倍
文件大小:11.03MB
文件格式:ZIP
更新时间:2024-06-22 20:12:55
系统开源
java笔试题算法
符号拼写
拼写更正和模糊搜索:通过对称删除拼写更正算法快
100
万倍
对称删除拼写校正算法降低了给定
Damerau-Levenshtein
距离的编辑候选生成和字典查找的复杂性。
它比语言快了六个数量级
()
并且与语言无关。
与其他算法相反,只需要删除,不需要转置
+
替换
+
插入。
输入术语的转置
+
替换
+
插入被转换为字典术语的删除。
替换和插入是昂贵的并且依赖于语言:例如中文有
70,000
个
Unicode
汉字!
速度来自廉价的仅删除编辑候选生成和预计算。
一个平均
5
个字母的单词在最大编辑距离
3
内有大约300
万个可能的拼写错误,
但是
SymSpell只需要生成25
个删除来覆盖它们,无论是在预计算还是在查找时。
魔法!
Copyright
(c)
2020
Wolf
Garbe
Version:
6.7
Author:
Wolf
Garbe