【文件属性】:
文件名称:icrawler:轻松从网站抓取数据的工具
文件大小:8KB
文件格式:ZIP
更新时间:2021-05-11 17:09:05
JavaScript
爬虫
轻松从网站抓取数据的工具
特征
干净简单的API
持久防错爬网
保存状态以进行连续爬网
用Cheerio解析类似jQuery的服务器端DOM
平行要求
代理列表和用户代理列表支持
HTTP标头和cookie设置
自动字符集检测和转换
控制台进度指示器
节点从0.10到6.0的支持
安装
npm install icrawler
用法
icrawler ( startData , opts , parse , done ) ;
startData用于开始爬网的任务(或任务数组)。 单个抓取任务可以是(页面或API资源的) url或具有url字段的对象。 可选地,您可以将带对象的data字段用于POST请求(默认方法是GET )。 您可以将其他任何字段用于自定义数据。 例如,当一个结果记录需要多个请求时,您可以将不同类型的任务标记为解析方式,或者可以将部分数据存储在任务中。
op
【文件预览】:
icrawler-master
----.jshintrc(587B)
----.gitignore(780B)
----package.json(756B)
----LICENSE(1KB)
----index.js(10KB)
----README.md(8KB)