YoungCorrector:基于规则的文本纠错系统下载

【文件属性】：

文件名称：YoungCorrector:基于规则的文本纠错系统

文件大小：19.88MB

文件格式：ZIP

更新时间：2024-03-31 14:14:08

系统开源

YoungCorrector 本项目是参考开源框架，自己实现了一套基于规则的纠错系统。总体来说，基于规则的文本纠错，性能取决于纠错词典和分词质量。目前与相比，在准确率差不多的情况下，本模型所用的时间会少很多（归功于前向最大匹配替代了直接索引替换字典）。代码还没有完善，还有很多优化的空间，后续会持续更新。。。中文文本纠错介绍文本纠错的核心步骤：错误检测，预期召回，纠错排序。错误检测：找到某些词是错误的。初步召回：选出纠错错误词。纠错排序：对预期词进行排序。主流的三种方法：基于规则：pycorrector 基于深度模型：百度纠错系统基于垂直领域：腾讯DCQC纠错框架中文纠错需要解决的问题：谐音字词，如配副眼睛-配副眼镜擅长音字词，如流浪织女-牛郎织女字词顺序颠倒倒，如伍迪艾伦-艾伦伍迪字词补全，如爱有天意-假如爱有天意形似字错误，如高梁-高粱中文拼音全拼，如x

立即下载

【文件预览】：
YoungCorrector-master
----utils()
--------text_utils.py(5KB)
--------__init__.py(42B)
--------logger.py(1KB)
----README.md(5KB)
----corrector.py(20KB)
----lm()
--------__init__.py(42B)
--------NLM.py(254B)
--------DLM.py(235B)
----data()
--------common_char_set.txt(14KB)
--------dict.txt(4.84MB)
--------pinyin2word.model(9.99MB)
--------custom_confusion.txt(25KB)
--------people_chars_lm.klm(20.1MB)
--------same_pinyin.txt(193KB)
--------same_stroke.txt(7KB)
----.gitignore(18B)
----tokenizer()
--------__init__.py(42B)

秒客网

YoungCorrector:基于规则的文本纠错系统

网友评论

相关文章