文件名称:dumpster-dive:将Wikipedia转储放入mongo
文件大小:892KB
文件格式:ZIP
更新时间:2024-05-31 12:36:01
JavaScript
垃圾箱潜水 *转储解析器 由 , 和 将Wikipedia 到mongo中, 这样您就可以搞乱了。 :guard: 是的 :guard: 在笔记本电脑上进行操作。 dumpster-dive是一个nodejs脚本,可以在一个愉快的下午将高度可查询的Wikipedia放入您的计算机中。 它使用并行处理页面,并使用将wikiscript转换为任何json。 -整个百科全书大约需要5个小时- npm install -g dumpster-dive :smiling_face_with_sunglasses: 原料药 var dumpster = require ( 'dumpster-dive' ) ; dumpster ( { file : './enwiki-latest-pages-articles.xml' , db : 'enwiki' } , callback ) ; 命令行: dumpster /path/to/my-wikipedia-
【文件预览】:
dumpster-dive-master
----.gitignore(79B)
----.eslintrc(1KB)
----contributing.md(1KB)
----package.json(1KB)
----package-lock.json(44KB)
----src()
--------03-logger.js(2KB)
--------01-prepwork.js(1KB)
--------index.js(2KB)
--------02-Worker-pool.js(3KB)
--------lib()
--------worker()
----bin()
--------report.js(643B)
--------dumpster.js(2KB)
----changelog.md(2KB)
----scratch.js(939B)
----scripts()
--------missing-templates.js(878B)
--------test.js(377B)
----README.md(9KB)
----tests()
--------plain.test.js(1KB)
--------tinywiki-latest-pages-articles.xml(26KB)
--------redirects.test.js(946B)
--------cli.test.js(561B)
--------db.js(1KB)
--------smallwiki-latest-pages-articles.xml(3.52MB)
--------custom.test.js(1KB)
----config.js(394B)
----.npmignore(33B)
----license.md(18KB)