WSU-Web-Crawler:检索URL的URL并将URL存储在Elasticsearch中

时间:2024-06-08 00:24:49
【文件属性】:

文件名称:WSU-Web-Crawler:检索URL的URL并将URL存储在Elasticsearch中

文件大小:42KB

文件格式:ZIP

更新时间:2024-06-08 00:24:49

JavaScript

WSU Web爬网程序 检索URL的URL并将URL存储在Elasticsearch中。 概述 WSU Web爬网程序在Elasticsearch中维护URL的记录。 通过爬网附加到URLHTML锚元素中的所有href属性来收集这些URL。 一系列优先级和时间表确定了URL的存储顺序: URL的search_scan_priority值为1到999。 从未被扫描且没有search_scan_date URL。 search_scan_date早于24小时的网址。 扫描URL后,将使用search_scan_date更新其记录,并删除search_scan_priority 。 环境 环境数据存储在.env文件中,该文件不属于此存储库。 它应具有以下值: ES_HOST="https://myelastic.domain" ES_URL_INDEX="url-storage-


【文件预览】:
WSU-Web-Crawler-master
----Gruntfile.js(1KB)
----lib()
--------parse-href.js(5KB)
----setup_es.js(3KB)
----parse-config-sample.json(519B)
----.travis.yml(368B)
----LICENSE(19KB)
----data-collector.js(18KB)
----README.md(7KB)
----Makefile(357B)
----.editorconfig(325B)
----tests()
--------test-parse-href-get-url.js(6KB)
----.gitignore(76B)
----package-lock.json(85KB)
----package.json(872B)

网友评论