wikiextractor:修改后的wikiextractor程序包可提取按类别过滤的Wikipedia数据

时间:2024-04-17 07:38:05
【文件属性】:

文件名称:wikiextractor:修改后的wikiextractor程序包可提取按类别过滤的Wikipedia数据

文件大小:31KB

文件格式:ZIP

更新时间:2024-04-17 07:38:05

Python

维基提取器 修改后的wikiextractor程序包可提取按类别过滤的Wikipedia数据 此包可用于从Wikipedia xml转储提取Wikitext。 每个Wikipedia页面都与一组预定义的类别相关联。 该软件包使您能够提取特定类别的页面,而不是提取整个Wikipedia数据。 #使用Git克隆并从wikiextractor文件夹上方的一级运行以下命令 python -m wikiextractor.WikiExtractor <Input xml> -o --ns 示例:用于提取与类别板球相关的所有页面 python -m wikiextractor.WikiExtractor enwiki-latest-pages-articles-multistream.xml.bz2 -o out_cricket -


【文件预览】:
wikiextractor-main
----extractPage.py(4KB)
----cirrus-extract.py(8KB)
----__init__.py(0B)
----WikiExtractor.py(24KB)
----README.md(1KB)
----clean.py(2KB)
----extract.py(58KB)

网友评论