文件名称:BengaliStemmer:一个非常简单易用的基于规则的孟加拉语(孟加拉语)词干分析器。 该程序将新行分隔的单词列表作为输入,并在每个新行中输出每个输入单词的词干
文件大小:5KB
文件格式:ZIP
更新时间:2024-07-24 06:16:50
C
这是一个非常简单的基于轻量级规则的孟加拉语词干分析器。 要在 Linux 系统上构建,请键入 make。 然后,您可以通过 ./stem_bn 调用词干分析器(可执行文件名称为 rbs) 输入文件是孟加拉语单词的换行分隔列表,输出也是换行分隔的文件,第一个单词是原始单词,连续单词是其词干形式。 运行这个词干分析器不需要语料库预处理。 我提供了一个示例输入文件。 只需输入 ./rbs sample.txt sample.stem 即可查看输出。 注意:您可以为词干分析器的侵略性提供可选的第三个参数。 默认情况下,激进模式是关闭的。 要打开它,请在参数列表的末尾附加一个“1”。
【文件预览】:
BengaliStemmer-master
----rbs.h(664B)
----bn_unicode.h(2KB)
----stem_bn.c(1KB)
----sample.txt(227B)
----makefile(64B)
----sample.stem(412B)
----rbs.c(5KB)
----README.md(768B)