WSU-Web-Crawler:检索URL的URL并将URL存储在Elasticsearch中下载

【文件属性】：

文件名称：WSU-Web-Crawler:检索URL的URL并将URL存储在Elasticsearch中

文件大小：42KB

文件格式：ZIP

更新时间：2024-06-08 00:24:49

JavaScript

WSU Web爬网程序检索URL的URL并将URL存储在Elasticsearch中。概述 WSU Web爬网程序在Elasticsearch中维护URL的记录。通过爬网附加到URLHTML锚元素中的所有href属性来收集这些URL。一系列优先级和时间表确定了URL的存储顺序： URL的search_scan_priority值为1到999。从未被扫描且没有search_scan_date URL。 search_scan_date早于24小时的网址。扫描URL后，将使用search_scan_date更新其记录，并删除search_scan_priority 。环境环境数据存储在.env文件中，该文件不属于此存储库。它应具有以下值： ES_HOST="https://myelastic.domain" ES_URL_INDEX="url-storage-

立即下载

【文件预览】：
WSU-Web-Crawler-master
----Gruntfile.js(1KB)
----lib()
--------parse-href.js(5KB)
----setup_es.js(3KB)
----parse-config-sample.json(519B)
----.travis.yml(368B)
----LICENSE(19KB)
----data-collector.js(18KB)
----README.md(7KB)
----Makefile(357B)
----.editorconfig(325B)
----tests()
--------test-parse-href-get-url.js(6KB)
----.gitignore(76B)
----package-lock.json(85KB)
----package.json(872B)

秒客网

WSU-Web-Crawler:检索URL的URL并将URL存储在Elasticsearch中

网友评论

相关文章