文件名称:wikipedia-parallel-titles:用于从*跨语言文章标题中提取平行语料库的工具
文件大小:6KB
文件格式:ZIP
更新时间:2024-07-12 11:44:21
Perl
*平行标题 本文档描述了如何使用这些工具根据*中跨语言的文章标题构建平行语料库(针对特定语言对)。 下载必要的数据 *会定期发布其内容的数据库转储。 要运行这些脚本,每个语言对需要两个文件:基本的每页数据,其中包括特定语言的文章 ID 及其标题(以-page.sql.gz结尾)和-page.sql.gz语言链接记录(文件以-langlinks.sql.gz结尾-langlinks.sql.gz )。 要找到这些文件,请转至然后在该对中的一种语言中找到*的数据库转储(建议使用较小的一种,因为这样可以加快处理速度)。 数据库备份通过将与单词wiki配对来命名。 例如,如果你想建立一个阿拉伯语-英语语料库,你应该从arwiki dump 下载相关文件,因为阿拉伯语文章比英语文章少。 例子: wget http://dumps.wikimedia.org/arwiki
【文件预览】:
wikipedia-parallel-titles-master
----.gitignore(675B)
----scripts()
--------postprocess-list.pl(526B)
--------extract.pl(2KB)
--------utf8-normalize.sh(712B)
----README.md(2KB)
----build-corpus.sh(639B)
----filters()
--------filter-cyrillic.pl(190B)
--------filter-perso-arabic.pl(190B)