文件名称:nodejs-crawler
文件大小:379KB
文件格式:ZIP
更新时间:2024-06-09 04:31:33
JavaScript
管道履带 最初,它被设计为仅在本地用于简单社区,社交媒体和门户网站爬网的目的。 但是,随着需要提取的数据量的增加,我们专注于将数据发送到ElasticSearch并对其进行了调整,以便可以在云环境中使用它。 大纲 安装 安装依赖包。 // using yarn yarn // using npm npm install 在update.sh修改远程存储地址。 git remote set-url origin < GIT> 编辑.env 。 作为批处理作业的一个选项,可以根据机器的功能设置最大浏览器数。 但是,这仅在通过http通信发送请求进行爬网时才可行。 对于EC2 t2.medium(2core / 4gb), MAX_BROWSER_COUNT为1很好。 除此之外,任何其他情况都会导致内存泄漏问题。 # Puppeteer options MAX_
【文件预览】:
nodejs-crawler-master
----.gitignore(55B)
----.eslintrc(427B)
----package.json(1KB)
----package-lock.json(186KB)
----src()
--------models()
--------index.js(177B)
--------views()
--------utils()
--------middlewares()
--------servers.js(248B)
--------routes()
--------setups()
----start.sh(170B)
----.env(280B)
----README.md(5KB)
----update.sh(209B)
----docs()
--------assets()
----renovate.json(41B)
----.prettierrc(106B)
----ecosystem.json(275B)