文件名称:apify-js:Apify SDK-JavaScriptNode.js的可伸缩Web抓取和抓取库。 借助无头的Chrome和Puppeteer,不仅可以开发数据提取和Web自动化作业
文件大小:2.97MB
文件格式:ZIP
更新时间:2024-02-24 09:10:31
npm automation scraping crawling javascript-library
Apify SDK:JavaScript的可扩展Web爬网和抓取库 Apify SDK简化了Web搜寻器,爬虫,数据提取器和Web自动化作业的开发。 它提供了一些工具来管理和自动缩放无头浏览器池,维护要爬网的URL队列,将爬网结果存储到本地文件系统或云中,旋转代理等等。 该SDK可作为 NPM软件包使用。 它可以是单机使用在自己的应用程序或在上运行。 在上查看完整的文档,指南和示例 动机 由于使用了诸如 , 或类的工具,编写Node.js代码以从网页提取数据非常容易。 但是最终情况会变得复杂。 例如,当您尝试: 使用永久性URL队列对整个网站进行深度爬网。 在CSV文件中的100k URL列表上运行抓取代码,当代码崩溃时不会丢失任何数据。 旋转代理以隐藏浏览器来源,并保持类似用户的会话。 禁用网站使用的浏览器指纹保护。 Python具有来完成这些任务,但是没有用于JavaScript(网络语言)的库。 JavaScript的使用是自然的,因为使用了相同的语言来编写脚本以及浏览器中运行的数据提取代码。 Apify SDK的目标是填补这一空白,并为JavaScript中的常