SpellChecker

时间:2024-05-02 02:52:31
【文件属性】:

文件名称:SpellChecker

文件大小:25.48MB

文件格式:ZIP

更新时间:2024-05-02 02:52:31

Python

Python简单拼写检查器 自然语言处理-INSPER 2021.1 安德烈·韦伯 马修斯·佩里松(Matheus Pellizzon) 命令: 要清除文本: python cleaner.py 要从明文生成词汇表,请执行以下操作: python vocab_generator.py 要从词汇表中进行更正: python corrector.py "frase para correção" 对项目进行的改进: 我们对Wikipedia文本进行了预处理,使用cleaner.py文件删除了html格式及其注释,数学类型标记,Wikipedia自己的格式以及似乎与单词校正无关的其他内容。 但是,在词汇表中仍然存在一些奇怪的情况,例如“ fff”,但是以后可以通过分析单词的概率来处理。 对于vobabulary的生成,通过文件vocab_generator.py我们去掉停用词由NLTK


【文件预览】:
SpellChecker-main
----dump_small.jsonln(58.3MB)
----vocab.json(201KB)
----.gitattributes(44B)
----vocab_generator.py(1KB)
----README.md(2KB)
----dump_small_clean.jsonln(26.85MB)
----corrector.py(3KB)
----cleaner.py(5KB)
----.gitignore(2KB)

网友评论