文件名称:THUCTC:高效的中文文本分类器
文件大小:1.71MB
文件格式:ZIP
更新时间:2024-02-24 12:13:04
nlp chinese-nlp NaturallanguageprocessingJava
THUCTC:一个高效的中文文本分类工具 目录 项目介绍 THUCTC(THU中文文本分类)是由清华大学自然语言处理实验室推出的中文文本分类工具包,能够自动高效地实现用户自定义的文本分类语料的训练,评估,分类功能。 ,特征降维,分类模型学习三个步骤。如何选择合适的文本特征并进行降维,是中文文本分类的挑战性问题。我组根据多年在中文文本分类的研究经验,在THUCTC中选取二字串bigram作为特征单元,特征降维方法为卡方,权重计算方法为tfidf,分类模型使用的是LibSVM或LibLinear。THUCTC对于开放领域的长文本具有良好的普适性,不依赖于任何中文分词工具的性能,具有准确率高,测试速
【文件预览】:
THUCTC-master
----.gitignore(183B)
----src()
--------org()
--------Demo.java(4KB)
----LICENSE(1KB)
----README.md(10KB)
----lib()
--------apache-commons-lang.jar(278KB)
--------THULAC_java_v1.jar(701KB)
--------liblinear-1.8.jar(51KB)
--------commons-codec-1.3.jar(46KB)
--------libsvm.jar(49KB)