文件名称:wikiextractor:从Wikipedia转储中提取纯文本的工具
文件大小:47KB
文件格式:ZIP
更新时间:2024-03-19 20:06:49
Python
WikiExtractor 是一个Python脚本,可从中提取和清除文本。 该工具是用Python编写的,不需要Python 3,但没有其他库。 警告:由于Windows上的Python实现对StringIO支持不佳, StringIO在Windows上已报告问题。 有关更多信息,请参见 。 *卷云提取器 cirrus-extractor.py是从Wikipedia Cirrus转储执行提取的脚本版本。 Cirrus转储包含带有已扩展模板的文本。 Cirrus转储位于: 。 细节 WikiExtractor通过预处理整个转储并提取模板定义来执行模板扩展。 为了加快处理速度: 多重处理用于并行处理文章 缓存中保留有已解析的模板(仅适用于重复提取)。 安装 该脚本可以直接调用: python -m wikiextractor.WikiExtractor <Wikipedi
【文件预览】:
wikiextractor-master
----.github()
--------workflows()
----LICENSE(34KB)
----extract.sh(799B)
----setup.py(1KB)
----README.md(6KB)
----.gitignore(430B)
----wikiextractor()
--------extractPage.py(4KB)
--------cirrus-extract.py(8KB)
--------__init__.py(0B)
--------WikiExtractor.py(22KB)
--------clean.py(2KB)
--------extract.py(58KB)