文件名称:medium-scraper:一个用NodeJs编写的Web抓取实用程序,用于抓取medium.com中的所有链接
文件大小:110KB
文件格式:ZIP
更新时间:2024-06-04 04:33:48
JavaScript
中刮板 一个用NodeJs编写的Web抓取实用程序,用于抓取所有链接。 必须以这样的方式进行操作:在特定时刻,我们只有5个与活动连接。 如果正在使用request ,则无法使用它们的连接池。 此应用程序有2个版本: 使用async库 不使用async库 有一个app.js是主服务器,两个版本是2条不同的路由。 routes/withAsync.js具有第1版的逻辑,而routes/withoutAsync.js具有第2版的逻辑。 每个版本在内部都使用不同的模块来工作。 当使用async库时, scrapeWithAsync.js具有逻辑 当没有外部库用于连接管理时, scrapeWithoutAsync.js具有逻辑。 定制连接管理器位于connectionManager.js文件中。 设置步骤 克隆此仓库 转到克隆的回购目录 使用npm install安装所有依赖项 运行步骤 使
【文件预览】:
medium-scraper-master
----connectionManager.js(907B)
----scrapeWithoutAsync.js(2KB)
----app.js(297B)
----scrape_without_async.csv(934KB)
----README.md(2KB)
----scrapeWithAsync.js(2KB)
----.gitignore(20B)
----routes()
--------withoutAsync.js(258B)
--------withAsync.js(249B)
----package-lock.json(29KB)
----package.json(269B)
----scrape_with_async.csv(677KB)