文件名称:Stemmer Gujarati:古吉拉特语的离线词干分析器,古吉拉特语是22种印度语言之一。-开源
文件大小:85KB
文件格式:ZIP
更新时间:2024-05-20 12:11:39
开源软件
这是Java中的古吉拉特语词干。 词干处理是从词根(词根)中删除词缀的过程。 它将形态学变体词与相应的共同词根相关联。 例如,“પ્રતિઉપયોગી”是词干为“ઉપયોગ”的单词。 词干是特定于语言的工具。 词干算法的设计需要大量的语言专业知识。 非印度语言的词干分析器的开发和评估方面有很多重要的工作,但是在印度方面,尤其是古吉拉特语的研究很少或没有任何重要的工作。该词干的代码基于在指导下设计的算法印度Nikita Desai教授它使用.txt类型的输入文件,其中包含编码为UTF-8的古吉拉特语文本,然后删除了不必要的停用词。 处理完其余词后,它将输出包含所有词干以及其他详细信息的对应文件。
【文件预览】:
stemmer
----gujarati_stop_words_daiict.txt(1KB)
----gujarati_stop_words_daiict11.txt(1KB)
----suffix-list-lengthnew.txt(2KB)
----build.xml(4KB)
----applet.policy(54B)
----substitutionlist.txt(688B)
----manifest.mf(85B)
----src()
--------CheckDictionary.java(909B)
--------Checkstopword.java(947B)
--------Readme.txt(573B)
--------CheckPrefix.java(1KB)
--------substitution.java(2KB)
--------Stemming.java(5KB)
--------CheckSuffix.java(1KB)
--------stemmer.java(2KB)
----123.txt(148B)
----nbproject()
--------build-impl.xml(77KB)
--------private()
--------project.xml(515B)
--------genfiles.properties(475B)
--------project.properties(2KB)
----prefix-list.txt(158B)
----dictionarylist.txt(218KB)
----tokenfile.txt(686B)
----build()
--------classes()