文件名称:异步网络抓取器和抓取器-Ruby开发
文件大小:23KB
文件格式:ZIP
更新时间:2024-06-16 05:37:42
Ruby Web Crawling
[RubyRetriever](http://softwarebyjoe.com/rubyretriever/)乔·诺顿(Joe Norton)RubyRetriever是一个Web爬网程序,抓取器和文件收集器。 可作为命令行可执行文件和爬网框架使用。 RubyRetriever(RR)使用[RubyRetriever](http://softwarebyjoe.com/rubyretriever/)作者:乔·诺顿(Ruby) 可作为命令行可执行文件和爬网框架使用。 RubyRetriever(RR)通过Eventmachine和Synchrony使用异步HTTP请求来非常快速地爬网网页。 RR还使用Bloomfilter的Ruby实现来跟踪它已经以内存有效方式进行爬网的页面。 v1.4.3更新(3/24/2016)-修复了fi的问题
【文件预览】:
rubyretriever-master
----.gitignore(887B)
----.rspec(26B)
----bin()
--------rr(2KB)
----.travis.yml(137B)
----LICENSE(1KB)
----spec()
--------link_spec.rb(2KB)
--------retriever_spec.rb(2KB)
--------spec_helper.rb(734B)
--------page_spec.rb(3KB)
--------target_spec.rb(1KB)
----rubyretriever.gemspec(2KB)
----lib()
--------retriever.rb(350B)
--------retriever()
----readme.md(7KB)
----Gemfile(38B)
----Rakefile(143B)
----Gemfile.lock(1KB)