nodecrawler:Node爬虫笔记

时间:2024-06-15 10:19:44
【文件属性】:

文件名称:nodecrawler:Node爬虫笔记

文件大小:23KB

文件格式:ZIP

更新时间:2024-06-15 10:19:44

JavaScript

Welcome to nodecrawler :waving_hand: node 爬虫笔记 :house: 最近同学让我帮做一个某电商的爬虫程序,作为一个前端,不会 pathon,只能想着用 node 写写看。 一、什么是爬虫? 爬虫简而言之就是爬去网页上的信息。而网页结构就是一个树形结构,就像一个蜘蛛网一样。而爬虫程序就像一个蜘蛛,在这个蜘蛛网上去收取我们感兴趣的信息。 二、我使用 node 爬虫遇到的问题 如何动态添加 url 队列对网站进行深度爬去。 当你对大量的 url 进行爬取的时候,你的程序突然崩溃了,如何保证数据不丢失? 如何向网页服务器隐藏你的请求源? 三、开始写爬虫前需要确定的两个东西。 Where to crawler? (要爬那的信息?)。 What to crawler? (你要爬什么信息?)。 Craft.io利其事必先利器 刚开始找了几个 node 爬虫库,但是效果不是很理想。不过皇天不负有心人


【文件预览】:
nodecrawler-master
----package.json(561B)
----package-lock.json(85KB)
----src()
--------crawlers()
----.gitignore(76B)
----README.md(9KB)
----.vscode()
--------settings.json(43B)

网友评论