文件名称:海葵:海葵网络蜘蛛框架
文件大小:34KB
文件格式:ZIP
更新时间:2024-03-12 08:37:21
Ruby
银莲花 Anemone是一个网络蜘蛛框架,可以蜘蛛一个域并收集有关其访问页面的有用信息。 它用途广泛,可让您快速轻松地编写自己的特殊蜘蛛任务。 有关更多信息,请参见 。 功能 多线程设计实现高性能 跟踪301 HTTP重定向 内置BFS算法确定页面深度 允许排除基于正则表达式的URL 选择链接,在每个页面上使用focus_crawl() HTTPS支持 记录每页的响应时间 CLI程序可以列出域中的所有页面,计算页面深度等 遵守robots.txt 使用TokyoCabinet,SQLite3,MongoDB或Redis进行爬网期间的页面内存或持久存储 例子 有关几个有用的Anemone任务的示例,请参见lib/anemone/cli目录下的脚本。 要求 野吉里 机器人 发展 要测试和开发此宝石,其他要求是: 规格 假网 东京柜 京柜Ruby 蒙哥 Redis sqli
【文件预览】:
anemone-next
----.gitignore(47B)
----bin()
--------anemone(61B)
----CONTRIBUTORS(203B)
----CHANGELOG.rdoc(3KB)
----anemone.gemspec(1KB)
----LICENSE.txt(1KB)
----spec()
--------fakeweb_helper.rb(2KB)
--------http_spec.rb(438B)
--------anemone_spec.rb(413B)
--------spec_helper.rb(220B)
--------cookie_store_spec.rb(821B)
--------storage_spec.rb(7KB)
--------page_spec.rb(6KB)
--------page_store_spec.rb(5KB)
--------core_spec.rb(10KB)
----VERSION(6B)
----README.rdoc(1KB)
----lib()
--------anemone()
--------anemone.rb(41B)
----Gemfile(26B)
----Rakefile(535B)