文件名称:canrevan:这是一个收集大量Naver新闻文章的图书馆。
文件大小:65KB
文件格式:ZIP
更新时间:2024-06-13 16:11:41
python nlp natural-language-processing news dataset
坎雷万 介绍 canrevan是一个收集大量Naver新闻文章的图书馆。 它可以帮助您以一种简单的方式来组织韩国新闻数据集。 NLP任务中最重要的部分之一是数据集。 与英语相比,特别是对于韩语,几乎无法收集数据。 特别是在转储文件的情况下,韩文版仅为651.3MB,而英文版为16.1GB。 因此,仅使用Wikipedia这样的数据集进行常规NLP学习是不够的。 那么,您该怎么做才能增加数据集的大小呢? 我们需要在其他地方收集数据。 代表性的是,有一篇新闻文章。 实际上,许多研究人员将包括Wiki数据在内的Internet新闻文章组合在一起构成一个语料库。 互联网新闻文章具有以下特征。 我有很多数据。 每天由各种媒体撰写的文章数量很大。 数据质量非常好。 基本上,新闻文章的结构不仅取决于拼写,还取决于内容。 它的配方比较好。 互联网新闻文章暗含某些规则和结构。 易于规范化。 存在
【文件预览】:
canrevan-master
----.github()
--------workflows()
----tests()
--------test_utils.py(2KB)
--------test_parsing.py(4KB)
--------resources()
--------__init__.py(38B)
--------test_crawling.py(2KB)
----LICENSE(11KB)
----src()
--------canrevan()
----setup.cfg(283B)
----setup.py(1KB)
----.gitignore(2KB)
----README.md(6KB)