【文件属性】:
文件名称:polipus:lip属
文件大小:1.5MB
文件格式:ZIP
更新时间:2021-05-20 16:22:21
Ruby
lip属
由Redis支持的用ruby编写的分布式Web爬虫,该项目已提交给RubyDay2013
特征
易于使用
分布式且可扩展
它使用智能/快速且节省空间的概率数据结构来确定是否应访问url
它不会耗尽您的Redis服务器
即使不是严格要求,也可以在MongoDB上很好地玩
轻松编写自己的页面存储策略
集中抓取变得容易
深受海葵的启发
支持的Ruby解释器
核磁共振1.9.x> = 1.9.1
核磁共振2.0.0
核磁共振2.1.2
JRuby 1.9模式
鲁比尼乌斯
生存代码示例
require "polipus"
Polipus . crawler ( "rubygems" , "http://rubygems.org/" ) do | crawler |
# In-place page processing
crawler . on_page_download
【文件预览】:
polipus-master
----.rubocop_todo.yml(1KB)
----polipus.gemspec(2KB)
----LICENSE.txt(1KB)
----.document(55B)
----lib()
--------polipus()
--------polipus.rb(15KB)
----Gemfile(129B)
----spec()
--------cassettes()
--------polipus()
--------clear.rb(318B)
--------spec_helper.rb(1KB)
--------polipus_spec.rb(4KB)
----Rakefile(149B)
----examples()
--------survival.rb(281B)
--------error_handling.rb(631B)
--------incremental.rb(2KB)
--------basic.rb(2KB)
--------robots_txt_handling.rb(364B)
----.travis.yml(607B)
----AUTHORS.md(202B)
----README.md(2KB)
----.rubocop.yml(248B)
----.rspec(31B)
----.gitignore(843B)
----CHANGELOG.md(3KB)