THUCTC：高效的中文文本分类器下载

【文件属性】：

文件名称：THUCTC：高效的中文文本分类器

文件大小：1.71MB

文件格式：ZIP

更新时间：2024-02-24 12:13:04

nlp chinese-nlp NaturallanguageprocessingJava

THUCTC：一个高效的中文文本分类工具目录项目介绍 THUCTC（THU中文文本分类）是由清华大学自然语言处理实验室推出的中文文本分类工具包，能够自动高效地实现用户自定义的文本分类语料的训练，评估，分类功能。，特征降维，分类模型学习三个步骤。如何选择合适的文本特征并进行降维，是中文文本分类的挑战性问题。我组根据多年在中文文本分类的研究经验，在THUCTC中选取二字串bigram作为特征单元，特征降维方法为卡方，权重计算方法为tfidf，分类模型使用的是LibSVM或LibLinear。THUCTC对于开放领域的长文本具有良好的普适性，不依赖于任何中文分词工具的性能，具有准确率高，测试速

立即下载

【文件预览】：
THUCTC-master
----.gitignore(183B)
----src()
--------org()
--------Demo.java(4KB)
----LICENSE(1KB)
----README.md(10KB)
----lib()
--------apache-commons-lang.jar(278KB)
--------THULAC_java_v1.jar(701KB)
--------liblinear-1.8.jar(51KB)
--------commons-codec-1.3.jar(46KB)
--------libsvm.jar(49KB)

秒客网

THUCTC：高效的中文文本分类器

网友评论

相关文章