文件名称:ruby-spider:使用“ anemone” gem作为框架,用ruby编写的电子邮件爬虫
文件大小:3KB
文件格式:ZIP
更新时间:2024-05-20 19:37:20
Ruby
目的 该网络蜘蛛会收集可以在目标网站上找到的所有电子邮件地址。 它将收集的地址存储在SQLite数据库文件中。 每个地址还包括有关该站点和其被收获的页面以及被发现的时间的信息。 安装 删除Gemfile.lock文件。 然后将宝石与: bundle install 用法 使用以下方法调用蜘蛛: ruby crawl.rb URL 抓取工具会在抓取网站时显示每个页面的URL。 它将写出一个pages.pstore文件(用于跟踪其已爬网的页面),以及一个data.db文件(用于存储收集的地址)。 要从数据库中导出地址,请执行“导出” Rake任务: rake export 您应该看到如下输出: [~/projects/ruby_spider] rake export 31 addresses exported to addresses.csv 导出数据中的每一行都包含电子邮件地址,收
【文件预览】:
ruby-spider-master
----Rakefile(448B)
----data.rb(798B)
----Gemfile(87B)
----Gemfile.lock(2KB)
----crawl.rb(963B)
----.gitignore(34B)
----README.md(1KB)