PlainTextWikipedia:将Wikipedia数据库转储转换为纯文本文件

时间:2024-05-01 16:33:38
【文件属性】:

文件名称:PlainTextWikipedia:将Wikipedia数据库转储转换为纯文本文件

文件大小:1.94MB

文件格式:ZIP

更新时间:2024-05-01 16:33:38

Python

PlainTextWikipedia 将Wikipedia数据库转储转换为纯文本文件(JSON)。 这实际上可以以很高的保真度解析所有Wikipedia。 上有一个副本 指示 从转储中下载所有.bz2文件: : enwiki-20201120-pages-articles-multistream1.xml-p1p41242.bz2文件名应类似于enwiki-20201120-pages-articles-multistream1.xml-p1p41242.bz2 将所有bz2文件直接解压缩到另一个目录,例如WikipediaArchive 安装REQUIREMENTS.TXT 更新jsonify_wikipedia.py的源目录和目标目录变量 运行脚本jsonify_wikipedia.py 这会将约40MB的JSON文件存入目标文件夹。 每个文件名都基于UUIDv4,因此保证


【文件预览】:
PlainTextWikipedia-main
----.gitignore(40B)
----simple_wikipedia_to_sqlite.py(6KB)
----REQUIREMENTS.TXT(30B)
----simple_wiki_to_solr.py(30B)
----start_solr.bat(92B)
----jsonify_simple_wikipedia.py(5KB)
----jsonify_wikipedia.py(3KB)
----LICENSE(1KB)
----simple_wiki.sqlite_bak(1.64MB)
----README.md(2KB)
----Wikipedia JSON.jpg(21KB)
----test_simple_wiki.xml(4.14MB)
----dewiki_functions.py(4KB)
----solr_functions.py(463B)

网友评论