Stemmer Gujarati:古吉拉特语的离线词干分析器，古吉拉特语是22种印度语言之一。-开源下载

【文件属性】：

文件名称：Stemmer Gujarati:古吉拉特语的离线词干分析器，古吉拉特语是22种印度语言之一。-开源

文件大小：85KB

文件格式：ZIP

更新时间：2024-05-20 12:11:39

开源软件

这是Java中的古吉拉特语词干。词干处理是从词根（词根）中删除词缀的过程。它将形态学变体词与相应的共同词根相关联。例如，“પ્રતિઉપયોગી”是词干为“ઉપયોગ”的单词。词干是特定于语言的工具。词干算法的设计需要大量的语言专业知识。非印度语言的词干分析器的开发和评估方面有很多重要的工作，但是在印度方面，尤其是古吉拉特语的研究很少或没有任何重要的工作。该词干的代码基于在指导下设计的算法印度Nikita Desai教授它使用.txt类型的输入文件，其中包含编码为UTF-8的古吉拉特语文本，然后删除了不必要的停用词。处理完其余词后，它将输出包含所有词干以及其他详细信息的对应文件。

立即下载

【文件预览】：
stemmer
----gujarati_stop_words_daiict.txt(1KB)
----gujarati_stop_words_daiict11.txt(1KB)
----suffix-list-lengthnew.txt(2KB)
----build.xml(4KB)
----applet.policy(54B)
----substitutionlist.txt(688B)
----manifest.mf(85B)
----src()
--------CheckDictionary.java(909B)
--------Checkstopword.java(947B)
--------Readme.txt(573B)
--------CheckPrefix.java(1KB)
--------substitution.java(2KB)
--------Stemming.java(5KB)
--------CheckSuffix.java(1KB)
--------stemmer.java(2KB)
----123.txt(148B)
----nbproject()
--------build-impl.xml(77KB)
--------private()
--------project.xml(515B)
--------genfiles.properties(475B)
--------project.properties(2KB)
----prefix-list.txt(158B)
----dictionarylist.txt(218KB)
----tokenfile.txt(686B)
----build()
--------classes()

秒客网

Stemmer Gujarati:古吉拉特语的离线词干分析器，古吉拉特语是22种印度语言之一。-开源

网友评论

相关文章