文件名称:web-crawler:node.js 中的一个简单的网络爬虫
文件大小:2KB
文件格式:ZIP
更新时间:2024-06-20 23:07:52
JavaScript
网络爬虫 爬虫是一个程序,它以网络上的 url(例如: )开始,获取与该 url 对应的网页,并将该页面上的所有链接解析为链接存储库。 接下来,它从刚刚创建的存储库中获取任何 url 的内容,将来自这个新内容的链接解析到存储库中,并对存储库中的所有链接继续这个过程,直到停止或在获取给定数量的链接之后。 安装依赖 我们在这个项目中有两个依赖:request 和cheerio 我们已经预先配置了npm因此我们可以简单地执行以下操作: npm install 运行应用程序 要从特定网站抓取链接,我们可以传递两个命令行参数。 URL和Number Of Links node index.js http://google.com 200 现在将在包含所有获取的链接的同一目录中创建新文件links.txt 。
【文件预览】:
web-crawler-master
----README.md(905B)
----index.js(1KB)
----package.json(215B)