文件名称:org.lappsgrid.mallet
文件大小:18.92MB
文件格式:ZIP
更新时间:2024-05-29 03:56:11
Java
org.lappsgrid.mallet 该存储库包含来自UMASS Amherst的NLP工具。 总共有6种工具。 这些工具是文档分类器,序列标记器,主题建模器以及它们各自的培训器。 输入 除Sequence Tagger之外的每个工具都需要一个LAPPS Grid Data对象,该对象带有鉴别符: 和有效载荷中的文本。 非培训工具的有效负载中的文本是我们希望分析的文本。 培训工具的有效负载中的文本未使用,因此可以为null 。 序列标记符要求使用作为鉴别符,并在Data对象中使用适当的令牌。 参数 每个工具也将需要一些参数。 文件分类器 参数名称 描述 默认值 分类器 分类器模型的路径 “ /masc_500k_texts.classifier” 顺序标记 参数名称 描述 默认值 模型 序列标记器模型的路径 “ /masc_500k_texts.model” 主题建模器 参数名称 描
【文件预览】:
org.lappsgrid.mallet-master
----.gitignore(269B)
----src()
--------main()
--------test()
----models()
--------masc_500k_texts_MCMaxEnt.classifier(4.97MB)
--------masc_500k_texts_MaxEnt.classifier(4.97MB)
--------masc_500k_texts_DecisionTree.classifier(321KB)
--------masc_500k_texts_BalancedWinnow.classifier(4.95MB)
--------masc_500k_texts_topic_keys.txt(792B)
--------masc_500k_texts_C45.classifier(47.36MB)
--------masc_500k_texts_NaiveBayesEMT.classifier(4.97MB)
--------masc_500k_texts.classifier(4.97MB)
--------masc_500k_texts_NaiveBayes.classifier(4.97MB)
--------masc_500k_texts_Winnow.classifier(4.95MB)
--------masc_500k_texts_MaxEntL1.classifier(4.97MB)
--------masc_500k_texts_word_by_word234.model(1.06MB)
--------masc_500k_texts_topics.inferencer(1.05MB)
----LICENSE(11KB)
----pom.xml(2KB)
----README.md(18KB)