文件名称:crawler:一个基本的 ruby 网络爬虫
文件大小:3KB
文件格式:ZIP
更新时间:2024-07-31 05:18:23
Ruby
一个非常基本的网络爬虫 给定一个 url,将对所有链接页面(在同一域和方案上)执行广度优先爬网,并构建每个页面所依赖的静态资产列表。 它需要一个完整的 url,带有方案(http 或 https)。 给定一个子域,它不会离开它。 即如果给定developer.google.com它将不会抓取developer.google.com之外的任何页面。 它也不会跟随重定向。 ##要求 能切里 在 2.1.1 MRI 上测试 ##用法: require './crawler.rb' # A scheme (http or https) is required. # The crawler will not leave the subdomain (e.g. www) it is assigned # To see a list of urls as they are being crawle
【文件预览】:
crawler-master
----readme.md(1KB)
----.ruby-version(6B)
----crawler.rb(4KB)