2016年新闻中文文本.txt

时间:2023-08-20 04:22:42
【文件属性】:

文件名称:2016年新闻中文文本.txt

文件大小:1KB

文件格式:TXT

更新时间:2023-08-20 04:22:42

Python Word2Vec 自然语言分析 中文预料

包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。 数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万,不提供下载。 可能的用途: 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据); 亦可以通过新闻渠道区分出新闻的类型。


网友评论