文件名称:中文自然语言处理中文分词训练语料
文件大小:108.12MB
文件格式:ZIP
更新时间:2021-07-22 16:59:30
NLP 语料 中文分词语料 中文语料
本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费,转载需要注明出处,语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M,包含1116903条数据,数据用空格隔开,可以用来训练分词模型。
【文件预览】:
syj_trainCorpus_utf8
----syj_trainCorpus_utf8.txt(264.39MB)
----readme.txt(1KB)