文件名称:复旦大学语料包括训练集和测试集
文件大小:88.52MB
文件格式:RAR
更新时间:2021-01-24 11:33:35
语料
找了很久才找到的,包括训练集和测试集,分享一下。test_corpus.rar为测试语料,共9833篇文档;train_corpus.rar为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按照1:1的比例来划分。使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。
【文件预览】:
test.rar
train.rar