文件名称:WebCrawler:简单的WebCrawler,可查找所有唯一链接并遍历它们
文件大小:18KB
文件格式:ZIP
更新时间:2024-04-05 10:55:53
JavaScript
网络爬虫 介绍 简单的WebCrawler,可查找网页上的所有链接并将其打印到控制台。 网页上的链接必须具有以下格式,才能被视为有效 。 在浏览的网页上找到的所有链接都将添加到一个临时文件中,以进行记录保存。 该程序利用线程池分配用于请求/解析的URL 图书馆 包括的库是: node.js(14.16.0 LTS)-执行JavaScript代码 npm(6.14.11)-用于安装节点模块 node-worker-threads-pool-访问创建工作池以请求/解析主线程HTML主体 cheerio-用于在网页上查找所有链接HTML解析器库 node-fetch-用于从提供的URL中获取HTML数据 yargs-命令行争论分析器 柴和摩卡-开发/运行单元测试 fs-用于保存和读取文件的模块 安装 1. Install Node.js and NPM from
【文件预览】:
WebCrawler-main
----.gitignore(2KB)
----README.md(3KB)
----test()
--------htmlTest2.html(1KB)
--------htmlTest3.html(1KB)
--------htmlTest1.html(131B)
--------main.test.js(2KB)
----tools_utils.js(3KB)
----package.json(739B)
----worker.js(693B)
----index.js(2KB)
----package-lock.json(32KB)