canrevan:这是一个收集大量Naver新闻文章的图书馆。下载

【文件属性】：

文件名称：canrevan:这是一个收集大量Naver新闻文章的图书馆。

文件大小：65KB

文件格式：ZIP

更新时间：2024-06-13 16:11:41

python nlp natural-language-processing news dataset

坎雷万介绍 canrevan是一个收集大量Naver新闻文章的图书馆。它可以帮助您以一种简单的方式来组织韩国新闻数据集。 NLP任务中最重要的部分之一是数据集。与英语相比，特别是对于韩语，几乎无法收集数据。特别是在转储文件的情况下，韩文版仅为651.3MB，而英文版为16.1GB。因此，仅使用Wikipedia这样的数据集进行常规NLP学习是不够的。那么，您该怎么做才能增加数据集的大小呢？我们需要在其他地方收集数据。代表性的是，有一篇新闻文章。实际上，许多研究人员将包括Wiki数据在内的Internet新闻文章组合在一起构成一个语料库。互联网新闻文章具有以下特征。我有很多数据。每天由各种媒体撰写的文章数量很大。数据质量非常好。基本上，新闻文章的结构不仅取决于拼写，还取决于内容。它的配方比较好。互联网新闻文章暗含某些规则和结构。易于规范化。存在

立即下载

【文件预览】：
canrevan-master
----.github()
--------workflows()
----tests()
--------test_utils.py(2KB)
--------test_parsing.py(4KB)
--------resources()
--------__init__.py(38B)
--------test_crawling.py(2KB)
----LICENSE(11KB)
----src()
--------canrevan()
----setup.cfg(283B)
----setup.py(1KB)
----.gitignore(2KB)
----README.md(6KB)

秒客网

canrevan:这是一个收集大量Naver新闻文章的图书馆。

网友评论

相关文章