deep-learning-Pre-training-Chinese-data-set:深度学习中文语料下载

【文件属性】：

文件名称：deep-learning-Pre-training-Chinese-data-set:深度学习中文语料

文件大小：2KB

文件格式：ZIP

更新时间：2024-05-06 04:17:17

深度学习预训练中文数据集国内公开的中文语料太少了，可以说是寥寥无几，大厂和机构缺少语料共享精神。训练语料的缺失给学习研究深度网络模型从业者带来困扰，获取预训练语料带来额外成本。这份语料可以降低训练模型的成本，让学习研究者只需要关注模型结构的研究，加速我国AI进展。该项目为国内最大的公开深度网络模型预训练中文语料，该语料可以用来训练bert模型。该语料由多个文本语料组成，大约22G。每个文本文件中每篇文章由\r\n分开，每篇文章中每段文本由\n分开。数据均来源于网络,仅供研究学习使用，请勿做商业用途。语料1：（访问密码：5129）语料2：（访问密码：5129）语料3：（访问密码：5129）语料4：（访问密码：5129）语料5：（访问密码：5129）语料6：（访问密码：5129）语料7：（访问密码：5129）语料8：（访问密码：5129）语料9：

立即下载

【文件预览】：
deep-learning-Pre-training-Chinese-data-set-main
----README.md(9KB)

秒客网

deep-learning-Pre-training-Chinese-data-set:深度学习中文语料

网友评论

相关文章