文件名称:wikiparse:解析Wikipedia转储并将页面数据索引到Elasticsearch
文件大小:93KB
文件格式:ZIP
更新时间:2024-06-09 06:41:56
Clojure
Wikiparse 将Wikipedia数据转储XML导入Elasticsearch。 用法 [注意]这是运行脚本的最跨平台的方式。 有关加载时间的2-4倍优化,请参见下面的“更快地运行它”部分。 下载页面文章XML转储,找到上的链接。 您需要pages-articles.xml.bz2。 不要解压缩BZ2文件。 在发布页面上,下载 在BZ2文件上运行jar: java -jar -Xmx3g -Xms3g wikiparse-0.2.1.jar --es http://localhost:9200 /var/lib/elasticsearch/enwiki-latest-pages-articles.xml.bz2 数据将被索引到名为en-wikipedia的索引(默认情况下)。 可以使用--index参数更改。 更快地运行 运行此代码的最快方法是在此存储库中使用run-fas
【文件预览】:
wikiparse-master
----.gitignore(182B)
----README.md(2KB)
----project.clj(570B)
----test()
--------wikiparse()
----test.xml(63B)
----wikisample.xml.bz2(86KB)
----src()
--------wikiparse()
----doc()
--------intro.md(127B)
----run-fast.sh(180B)