suffixlemmatizer:适用于高屈折性语言的简单幼稚统计词形分解器

时间:2024-05-17 07:51:28
【文件属性】:

文件名称:suffixlemmatizer:适用于高屈折性语言的简单幼稚统计词形分解器

文件大小:23KB

文件格式:ZIP

更新时间:2024-05-17 07:51:28

C++

##后缀lemmatizer 该库已由取代和替换 该库/程序是一个统计词法分析器,用于学习最可能的变形词形->词法化词缀的后缀替换。 它主要是从爱沙尼亚语言的角度设计的,但是可能与任何屈折的语言一起使用,因为不同的词形共享一个共同的前缀。 建造 要构建共享库和二进制文件,请使用Scons系统 命令行用法 用法:suflem model_path [--train = path] [--maxlen = integer] [--flush] model_path-在训练过程中保存模型以及在进行词形化时加载模型的路径。 --train = path-如果给出,以训练模式启动程序。 从给定路径读取的所有输入--maxlen = integer-在训练阶段存储的最大后缀长度。 默认值为8。--flush-如果给定,则在每个处理的输入行之后刷新输出。 在训练模式下无效。 最小化模式(默认) 退


【文件预览】:
suffixlemmatizer-master
----.gitignore(299B)
----README.md(2KB)
----SConstruct(689B)
----Model.cpp(16KB)
----Model.hpp(3KB)
----suflem.cpp(6KB)
----LICENSE.txt(34KB)
----data()
--------testlang.train(167B)
--------test.txt(269B)
--------testlang.test(82B)

网友评论