文件名称:icrawler:轻松从网站抓取数据的工具
文件大小:8KB
文件格式:ZIP
更新时间:2024-05-31 10:55:45
JavaScript
爬虫 轻松从网站抓取数据的工具 特征 干净简单的API 持久防错爬网 保存状态以进行连续爬网 用Cheerio解析类似jQuery的服务器端DOM 平行要求 代理列表和用户代理列表支持 HTTP标头和cookie设置 自动字符集检测和转换 控制台进度指示器 节点从0.10到6.0的支持 安装 npm install icrawler 用法 icrawler ( startData , opts , parse , done ) ; startData用于开始爬网的任务(或任务数组)。 单个抓取任务可以是(页面或API资源的) url或具有url字段的对象。 可选地,您可以将带对象的data字段用于POST请求(默认方法是GET )。 您可以将其他任何字段用于自定义数据。 例如,当一个结果记录需要多个请求时,您可以将不同类型的任务标记为解析方式,或者可以将部分数据存储在任务中。 op
【文件预览】:
icrawler-master
----.jshintrc(587B)
----.gitignore(780B)
----package.json(756B)
----LICENSE(1KB)
----index.js(10KB)
----README.md(8KB)