文件名称:wikiextractor:修改后的wikiextractor程序包可提取按类别过滤的Wikipedia数据
文件大小:31KB
文件格式:ZIP
更新时间:2024-04-17 07:38:05
Python
维基提取器 修改后的wikiextractor程序包可提取按类别过滤的Wikipedia数据 此包可用于从Wikipedia xml转储提取Wikitext。 每个Wikipedia页面都与一组预定义的类别相关联。 该软件包使您能够提取特定类别的页面,而不是提取整个Wikipedia数据。 #使用Git克隆并从wikiextractor文件夹上方的一级运行以下命令 python -m wikiextractor.WikiExtractor <Input xml> -o
【文件预览】:
wikiextractor-main
----extractPage.py(4KB)
----cirrus-extract.py(8KB)
----__init__.py(0B)
----WikiExtractor.py(24KB)
----README.md(1KB)
----clean.py(2KB)
----extract.py(58KB)