puppeteer-web-crawler:通过Puppeteer使用无头Chrome的网络爬虫

时间:2024-05-31 07:05:38
【文件属性】:

文件名称:puppeteer-web-crawler:通过Puppeteer使用无头Chrome的网络爬虫

文件大小:6KB

文件格式:ZIP

更新时间:2024-05-31 07:05:38

JavaScript

木偶网络爬虫 通过Puppeteer使用无头Chrome的网络爬虫。 当前版本是专门为用作简单的缓存预热实用程序而构建的。 我计划对其进行扩展,以包括更多选项和功能,例如报告。 用法 安装依赖项: # NPM npm i # Yarn yarn 运行搜寻器: npm run crawl # -- 传递两个种子页面和两个站点地图的示例: npm run crawl -- --seed=https://example.com/seed1.html --seed=https://example.com/seed2.html --sitemap=https://example.com/sitemap.xml --sitemap=https://example.com/sitemap2.xml


【文件预览】:
puppeteer-web-crawler-master
----.gitignore(42B)
----README.md(604B)
----LICENSE(1KB)
----package.json(442B)
----index.js(4KB)
----lib()
--------config()
--------config.js(2KB)

网友评论