文件名称:wikipedia2XML-开源
文件大小:21KB
文件格式:GZ
更新时间:2024-08-08 07:12:04
开源软件
一组 Python 脚本,用于从原始 Wikipedia 数据库备份转储创建和处理 XML 语料库(用于语言目的的大型文本集合)。 它包括用于 MediaWiki 标记语言的基于正则表达式的解析器。
【文件预览】:
wikipedia2XML
----wiki_corpus.py(14KB)
----reParse.pyc(20KB)
----corpus.dtd(2KB)
----wiki2XML.py(11KB)
----reParse.py(26KB)
----README(6KB)