文件名称:node-crawling-framework:S受Scrapy启发的NodeJs抓取和抓取框架
文件大小:217KB
文件格式:ZIP
更新时间:2024-05-20 02:00:58
elasticsearch middleware crawler scraper spider
节点爬网框架 当前阶段:aplha(进行中) “ node-crawling-framework”是受启发的的爬网和抓取框架。 节点作业服务器也在运行中(基于BullJs的kinda scrapyd等效项)。 功能(尚未经过全面测试和最终确定) 核心工作正常:Crawler,Scraper,Spider,项目处理器(管道),DownloadManager,下载器。 通过中间件和类继承的模块化且易于扩展的体系结构: 添加您自己的蜘蛛,项目处理器和下载器中间件。 扩展框架蜘蛛并免费获得一些功能。 DownloadManager:延迟和并发限制设置, RequestDownloader:基于请求包的下载器, 下载器中间件: cookie:处理请求之间的cookie存储, defaultHeaders:向每个请求添加默认标头, 重试:错误时重试请求, 统计信息:在抓取过程
【文件预览】:
node-crawling-framework-master
----yarn.lock(62KB)
----packages()
--------booksbot()
--------quotesbot-js()
--------quotesbot()
--------ncf-puppeteer()
--------node-crawling-framework()
----lerna.json(83B)
----README.md(5KB)
----.gitignore(27B)
----_config.yml(26B)
----package.json(270B)