wickedQuotes:解析并清理wikiquote数据转储以创建引号的json数据集

时间:2024-02-27 08:12:57
【文件属性】:

文件名称:wickedQuotes:解析并清理wikiquote数据转储以创建引号的json数据集

文件大小:1.19MB

文件格式:ZIP

更新时间:2024-02-27 08:12:57

quotes parser json database xml

邪恶语录 在网上找不到大型的公开报价数据集。 因此,我决定通过解析和清理Wikiquote数据转储来创建自己的数据库。 该存储库包含执行此操作的脚本,以及仅在需要数据时生成的引号json文件。 用法 下载Wikiquote的数据转储: wget https://dumps.wikimedia.org/enwikiquote/latest/enwikiquote-latest-pages-articles.xml.bz2 提取档案: bzip2 -d enwikiquote-latest-pages-articles.xml.bz2 然后运行程序: python parse.py en


网友评论