文件名称:Gumo:从动态网页提取数据的搜寻器。 写在节点js
文件大小:12KB
文件格式:ZIP
更新时间:2024-06-02 08:18:34
nodejs elasticsearch crawler neo4j JavaScript
:spider_web: 古墨 “蜘蛛”(Gumo)在日语中是“蜘蛛”的意思。 概述 :glasses: Web爬网程序(获取它?)和爬网程序,它从一组嵌套的动态网页中提取数据,并添加了增强功能以帮助进行知识挖掘应用程序。 用NodeJS编写。 目录 :open_book: :man::laptop: 配置 :gear: 弹性搜索 :high_voltage: GraphDB☋ 节点数 人际关系 去做 :check_box_with_check: 特征 :glowing_star: 出现在任何域及其子域的页面上的爬网超链接。 从每个页面抓取元标记和正文。 将整个站点地图存储在GraphDB中(当前支持Neo4J)。 将页面内容存储在ElasticSearch中,以方便全文本查找。 安装 :building_construction: 用法 :man::laptop: 来自代码: // 1: import the module const gumo = require ( 'gumo' ) // 2: instantiate the
【文件预览】:
Gumo-main
----crawler()
--------crawler.js(13KB)
----.gitignore(137B)
----package.json(1KB)
----LICENSE(1KB)
----gumo.js(6KB)
----index.js(555B)
----libs()
--------graphHandler.js(2KB)
----README.md(8KB)
----config.json(542B)