中文文本分类语料(由复旦大学李荣陆提供)(附停用词).rar

时间:2022-12-21 15:31:45
【文件属性】:

文件名称:中文文本分类语料(由复旦大学李荣陆提供)(附停用词).rar

文件大小:86.75MB

文件格式:RAR

更新时间:2022-12-21 15:31:45

中文文本分类 文本分类 语料 停用词

1、资源中有语料,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。 2、资源中还附有一份停用词。


【文件预览】:
语料(附停用词)
----data.rar(101.81MB)
----stopword.txt(21KB)

网友评论