dataset.wikimedia-cirrus:下载Wikimedia或Cirrus转储

时间:2024-05-08 02:45:35
【文件属性】:

文件名称:dataset.wikimedia-cirrus:下载Wikimedia或Cirrus转储

文件大小:5KB

文件格式:ZIP

更新时间:2024-05-08 02:45:35

数据集:Wikimedia Dumps / Cirrus 下载或使用的 。 Wikipedia存档有两种格式,一种是Wikimedia转储,其中包含需要扩展的模板;另一种是已扩展的Cirrus转储,可以直接下载和使用(推荐选项)。 由于Cirrus转储看起来相对干净,并且由于wikiextractor.py难以改进,因此推荐的方法是仅使用Cirrus转储。 Wikiextractor作为存在,按如下所示激活它: $ git submodule init $ git submodule update 卷云 $ ./get-links.sh [language-code] # downloads to [language-code].cirrus-links.txt $ ./download-cirrus.sh [file] # uses [language-code].cirrus-


【文件预览】:
dataset.wikimedia-cirrus-master
----.gitignore(53B)
----extract-wikimedia.sh(906B)
----download-cirrus.sh(773B)
----download-wikimedia.sh(1KB)
----wikiextractor()
----README.md(2KB)
----extract-cirrus.sh(481B)
----utils.sh(356B)
----get-links.sh(966B)

网友评论