wikiparser:*转储解析器

时间:2024-05-29 20:16:06
【文件属性】:

文件名称:wikiparser:*转储解析器

文件大小:71KB

文件格式:ZIP

更新时间:2024-05-29 20:16:06

Python

威基帕瑟 这是一个从Wikipedia数据库转储中提取文本的工具。 它使用外部WikiExtractor脚本从压缩的数据库转储中提取文件。 文件被提取到带有文档文本的文件夹中。 完成此操作后,Wikiparser将解析文档文本以提取相关信息,例如Wiki页面中的标题和超链接。 该库是用Java编写的。 细节 WikiParser工具包含3个组件。 第一个组件是Wikiextractor。 第二个组件是JWPL DataMachine。 第三个组件是WikiParser本身。 python文件wikiextractor.py用于从Wikipedia数据库转储中提取和清除文本。 转储是一个压缩的XML文件,其中包含整个百科全书。 WikiExtractor工具解析XML文件并生成纯文本,同时丢弃在Wikipedia页面中找到的信息和注释,例如图像和表格。 它以压缩的Wikipedia数据库


【文件预览】:
wikiparser-master
----.gitignore(263B)
----README.md(5KB)
----pom.xml(3KB)
----src()
--------main()
----scripts()
--------runKB.sh(416B)
--------runwikiparser.sh(335B)
--------wikiextractorpagetitleparser.sh(326B)
--------wikiextractor.py(113KB)
--------copyFiles.sh(316B)
--------runwikiextractor.sh(331B)
--------jwplparser.sh(137B)
--------JsonGen.sh(619B)
--------datamachine.sh(248B)
--------runtitleintersection.sh(380B)
--------resolveHyper.sh(264B)

网友评论