toutiao-text-classfication-dataset:今日头条中文新闻(文本)分类数据集

时间:2024-06-08 02:45:04
【文件属性】:

文件名称:toutiao-text-classfication-dataset:今日头条中文新闻(文本)分类数据集

文件大小:25.67MB

文件格式:ZIP

更新时间:2024-06-08 02:45:04

Python

中文文本分类数据集 数据来源: 今日头条客户端 数据格式: 6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们 每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词 分类code与名称: 100 民生 故事 news_story 101 文化 文化 news_culture 102 娱乐 娱乐 news_entertainment 103 体育 体育 news_sports 104 财经 财经 news_finance 106 房产 房产 news_house 107 汽车 汽车 news_car 108 教育 教育 news_edu 109 科


【文件预览】:
toutiao-text-classfication-dataset-master
----toutiao_cat_data.txt.zip(25.67MB)
----get_data.py(5KB)
----readme.md(1KB)

网友评论