【文件属性】:
文件名称:spell-checking-and-correction
文件大小:25.87MB
文件格式:ZIP
更新时间:2021-04-02 05:49:48
Python
拼写检查和更正
待办事项清单:
数据集创建和清理
TDKGüncelTürkçeSözlük
使用大语料库(OSCAR)的数据
ZemberekNLP数据
数据扩充脚本
准备测试集
评估现有的拼写检查器
有关创建更好的.aff / .dic培训的研究
笔记:
没有为的开发人员吗?
土耳其语拼写检查清单
下表显示了数据集上土耳其语拼写检查器的性能。
拼写检查器
错误检测精度
错误检测召回
错误检测F1-Score
校正精度
速度(每秒字数)
94.69
39.09
55.34
60.91
1.06
99.06
94.05
96.49
99.24
397.65
(vdemir)
81.23
97.16
88.48
80.11
632.92
(hrzafer)
92.73
96.51
94.58
79.68
4.50
91.07
【文件预览】:
spell-checking-and-correction-main
----processing_conf.json(477B)
----data_preprocessing.py(9KB)
----evaluation()
--------hunspell_tr_vdemir.json(1.78MB)
--------zemberek_python.json(2.25MB)
--------eval_input_sample.json(4KB)
--------zemberek_nlp.json(2.36MB)
--------hunspell_tr_hrzafer.json(1.71MB)
--------zemberek_nlp_v2.json(1.78MB)
--------README.md(1KB)
--------velhasil.json(3.01MB)
--------SpellChecker_py.json(967KB)
--------data()
--------evaluate.py(1KB)
--------tr_spell.json(1.85MB)
----README.md(3KB)