python-mwdump-tools:快速解析 Mediawiki XML 转储

时间:2024-07-19 15:14:47
【文件属性】:

文件名称:python-mwdump-tools:快速解析 Mediawiki XML 转储

文件大小:123KB

文件格式:ZIP

更新时间:2024-07-19 15:14:47

Python

Python-mwdump-工具 快速解析 Mediawiki XML 转储:使用简单的字符串搜索和 Python 的 elementree 的 C 实现来解析 stdin XML 转储以解析每个节点。 去做 文档 除了图像下载之外的其他解析示例 PIP 包装 特征 快速地 最外层的解析不会尝试解析整个 XML 转储,而是简单地从移动到以允许小缓冲区和快速部署作业。 多重处理 由于 Python 3 具有真正的并行作业任务,所有这些用于解析修订文本、下载相关文件等 I/O 繁重的任务都可以在单个服务器的最大效用下执行。 恢复和跳过 在适用的情况下,可以通过解析作业应从其开始的行号来恢复作业。 如果作业发现某些东西已经被处理,它会跳过这个。 超级可配置 大多数行为都可以配置。 命令 图片下载器 下载和降采样在 XML 转储中找到的图像。 用法:


【文件预览】:
python-mwdump-tools-master
----COPYING(34KB)
----imagedownloader(55B)
----requirements.txt(13B)
----README.md(2KB)
----.gitignore(377B)
----mwdumptools()
--------settings.py(176B)
--------streamparser.py(6KB)
--------imagedownloader.py(13KB)
--------__init__.py(785B)
--------tests()

网友评论