文件名称:Lemmatizer:通过 pymorphy2 对俄语文本进行词形还原的简单脚本
文件大小:1KB
文件格式:ZIP
更新时间:2024-07-10 11:19:31
Python
词形还原器 通过 pymorphy2 对俄语文本进行词形还原的简单脚本。 用法:程序读取执行脚本的目录中的所有 txt 文件,自动检测代码页,清除换行符和标点符号中的文本,进行词形还原,然后将所有处理过的文件存储在自动创建的 ./lemmatized 子文件夹中。 生成的文件是 utf-8。
【文件预览】:
Lemmatizer-master
----lemmatize.py(1KB)
----README.md(386B)