MediaWiki-Streaming:一组用于处理带流的MediaWiki数据的实用程序

时间:2024-06-10 12:26:47
【文件属性】:

文件名称:MediaWiki-Streaming:一组用于处理带流的MediaWiki数据的实用程序

文件大小:59KB

文件格式:ZIP

更新时间:2024-06-10 12:26:47

Python

MediaWiki流 一组用于流处理MediaWiki数据的实用程序。 用法 mwstream (-h | --help) mwstream [-h|--help] 数据处理工具 diffs2persistence 使用带有diff信息的修订JSON Blob生成令牌持久性统计信息。 dump2json 将XML转储转换为修订版JSON Blob流 dump2diffs 直接从XML转储计算差异 fetch_missing_diffs 扫描差异文档以查找丢失的差异并填写。 json2diffs 计算“ diff”字段并将其添加到修订JSON blob流中 mend_diffs 修补以大块且无序计算的差异。 persistence2stats 将令牌持久性统计信息汇总到修订统计信息 wikihadoop2json 将经过Wikihadoop处理的X


【文件预览】:
MediaWiki-Streaming-master
----MANIFEST.in(27B)
----README.rst(2KB)
----demonstrate_json_speed.py(990B)
----mwstream(71B)
----config()
--------western.diffs.yaml(331B)
----LICENSE(1KB)
----setup.py(1KB)
----mwstreaming()
--------utilities()
--------__init__.py(22B)
--------mwstream.py(2KB)
----docs()
--------schemas()
--------test_data()
----.gitignore(564B)

网友评论