【文件属性】:
文件名称:crawler:一个基本的 ruby 网络爬虫
文件大小:3KB
文件格式:ZIP
更新时间:2021-07-11 11:31:43
Ruby
一个非常基本的网络爬虫
给定一个 url,将对所有链接页面(在同一域和方案上)执行广度优先爬网,并构建每个页面所依赖的静态资产列表。 它需要一个完整的 url,带有方案(http 或 https)。 给定一个子域,它不会离开它。 即如果给定developer.google.com它将不会抓取developer.google.com之外的任何页面。 它也不会跟随重定向。
##要求
能切里
在 2.1.1 MRI 上测试
##用法:
require './crawler.rb'
# A scheme (http or https) is required.
# The crawler will not leave the subdomain (e.g. www) it is assigned
# To see a list of urls as they are being crawle
【文件预览】:
crawler-master
----readme.md(1KB)
----.ruby-version(6B)
----crawler.rb(4KB)