json-wikipedia:Json Wikipedia,包含将Wikipedia xml转储转换为jsonavro转储的代码

时间:2024-05-22 09:32:16
【文件属性】:

文件名称:json-wikipedia:Json Wikipedia,包含将Wikipedia xml转储转换为jsonavro转储的代码

文件大小:26.3MB

文件格式:ZIP

更新时间:2024-05-22 09:32:16

Java

json-* Json Wikipedia包含将Wikipedia XML转储转换为JSON或avro转储的代码。 请注意,此工具不适用于multistream储。 设置 编译正在运行的项目 mvn package 该命令将生成一个JAR文件,其中包含目标文件夹的所有依赖项。 转换Wikipedia XML 您可以通过运行以下命令将Wikipedia转储转换为JSON格式: java -jar target/json-wikipedia-*.jar -input wikipedia-dump.xml.bz -output wikipedia-dump.json[.gz] -lang [en|it] 或者 ./scripts/convert-xml-dump-to-json.sh [en|it] wikipedia-dump.xml.bz wikipedia-dump.json


【文件预览】:
json-wikipedia-master
----.gitignore(63B)
----src()
--------main()
--------test()
----.travis.yml(200B)
----LICENSE(11KB)
----pom.xml(8KB)
----scripts()
--------convert-xml-dump-to-json.sh(358B)
--------config.sh(266B)
--------convert-xml-dump-in-one-article-per-line.py(692B)
----README.md(3KB)
----logback.xml(694B)
----CREDITS.txt(234B)

网友评论