文本分类语料库(复旦)测试语料

时间:2023-06-19 07:30:07
【文件属性】:

文件名称:文本分类语料库(复旦)测试语料

文件大小:262.97MB

文件格式:CSV

更新时间:2023-06-19 07:30:07

新闻分类语料库 复旦 tc-corpus-answer tc-corpus-train

文本分类语料库(复旦)测试语料 由复旦大学李荣陆提供。answer.rar为测试语料,共9833篇文档;train.rar为训练语料,共9804篇文档,分为20个类别。训练语料和测试语料基本按照1:1的比例来划分。收集工作花费了不少人力和物力,所以请大家在使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。文件较大(训练测试各50多兆),下载时请耐心等待。 经过数据清理将训练和测试合并成一个csv文件,可以用pandas.read_csv直接读取,分为两列分别是类别和文本内容,总共19637条记录。


网友评论