Lemmatizer:通过 pymorphy2 对俄语文本进行词形还原的简单脚本

时间:2024-07-10 11:19:31
【文件属性】:

文件名称:Lemmatizer:通过 pymorphy2 对俄语文本进行词形还原的简单脚本

文件大小:1KB

文件格式:ZIP

更新时间:2024-07-10 11:19:31

Python

词形还原器 通过 pymorphy2 对俄语文本进行词形还原的简单脚本。 用法:程序读取执行脚本的目录中的所有 txt 文件,自动检测代码页,清除换行符和标点符号中的文本,进行词形还原,然后将所有处理过的文件存储在自动创建的 ./lemmatized 子文件夹中。 生成的文件是 utf-8。


【文件预览】:
Lemmatizer-master
----lemmatize.py(1KB)
----README.md(386B)

网友评论