nodejs-web-scraper

时间:2024-05-27 08:29:01
【文件属性】:

文件名称:nodejs-web-scraper

文件大小:56KB

文件格式:ZIP

更新时间:2024-05-27 08:29:01

JavaScript

nodejs-web-scraper是用于抓取/爬取服务器端渲染页面的简单工具。 它支持递归抓取(“打开”其他页面的页面),文件下载和处理,失败请求的自动重试,并发限制,分页,请求延迟等功能。在节点10和12上进行了测试(Windows 7,Linux Mint) 。 该API使用cheerio-advanced-selector。 如有任何疑问或建议,请打开Github问题或通过与我联系 安装 $ npm install nodejs-web-scraper 目录 原料药 分页说明 错误处理 自动记录 并发 执照 免责声明 基本例子 从新闻站点收集文章 假设我们要从新闻网站获取每个文章(来自每个类别)。 我们希望每个项目都包含标题,故事和图像链接。 const { Scraper , Root , DownloadContent , OpenLinks , CollectCon


【文件预览】:
nodejs-web-scraper-master
----.gitignore(13B)
----limitedSpa()
--------ScrollToBottom.js(4KB)
--------mixins()
--------ClickButton.js(1KB)
--------SPA_Page.js(4KB)
----readmebackup(40KB)
----file_downloader()
--------file_processor.js(2KB)
--------index.js(3KB)
--------fileNameFromResponse.js(2KB)
----package.json(907B)
----package-lock.json(9KB)
----index.js(519B)
----Scraper.js(8KB)
----utils()
--------concurrency.js(454B)
--------files.js(1KB)
--------pagination.js(909B)
--------html.js(399B)
--------url.js(659B)
--------objects.js(1KB)
--------rpur.js(3KB)
--------cheerio.js(2KB)
--------delay.js(175B)
----operations()
--------OpenLinks.js(5KB)
--------Operation.js(2KB)
--------helpers()
--------CollectContent.js(4KB)
--------DownloadContent.js(9KB)
--------mixins()
--------Root.js(3KB)
--------HttpOperation.js(4KB)
----readme.md(28KB)
----request()
--------request.js(6KB)

网友评论