wikipedia-parallel-titles:用于从*跨语言文章标题中提取平行语料库的工具下载

【文件属性】：

文件名称：wikipedia-parallel-titles:用于从*跨语言文章标题中提取平行语料库的工具

文件大小：6KB

文件格式：ZIP

更新时间：2024-07-12 11:44:21

Perl

*平行标题本文档描述了如何使用这些工具根据*中跨语言的文章标题构建平行语料库（针对特定语言对）。下载必要的数据 *会定期发布其内容的数据库转储。要运行这些脚本，每个语言对需要两个文件：基本的每页数据，其中包括特定语言的文章 ID 及其标题（以-page.sql.gz结尾）和-page.sql.gz语言链接记录（文件以-langlinks.sql.gz结尾-langlinks.sql.gz ）。要找到这些文件，请转至然后在该对中的一种语言中找到*的数据库转储（建议使用较小的一种，因为这样可以加快处理速度）。数据库备份通过将与单词wiki配对来命名。例如，如果你想建立一个阿拉伯语-英语语料库，你应该从arwiki dump 下载相关文件，因为阿拉伯语文章比英语文章少。例子： wget http://dumps.wikimedia.org/arwiki

立即下载

【文件预览】：
wikipedia-parallel-titles-master
----.gitignore(675B)
----scripts()
--------postprocess-list.pl(526B)
--------extract.pl(2KB)
--------utf8-normalize.sh(712B)
----README.md(2KB)
----build-corpus.sh(639B)
----filters()
--------filter-cyrillic.pl(190B)
--------filter-perso-arabic.pl(190B)

秒客网

wikipedia-parallel-titles:用于从*跨语言文章标题中提取平行语料库的工具

网友评论

相关文章