文件名称:cobweb:具有非常灵活的爬网选项的Web爬网程序。 可以独立使用,也可以与resque一起使用以执行群集爬网
文件大小:9.5MB
文件格式:ZIP
更新时间:2024-03-06 09:05:48
JavaScript
蜘蛛网v1.1.0 介绍 CobWeb有三种运行方法。 首先,它是一个http客户端,它允许get和head请求返回与所请求资源有关的数据哈希。 第二个主要功能是结合使用此功能和Resque的功能来对爬网进行聚类,从而使您能够快速进行爬网。 最后,您可以使用使用爬网中找到的每个页面的块来运行爬网程序。 我已经在创建了一个示例应用程序来帮助设置蜘蛛网。 恢复 在resque上运行时,传入类和队列名称,它将使所有资源排队进入此队列进行处理,并传入其生成的哈希。 然后,您可以实现perform方法来为自己的应用程序处理资源。 单机版 CobwebCrawler采用与cobweb本身相同的选项,因此您可以使用任何可用的选项。 下面列出了一个示例。 搜寻器运行时,您可以在http:// localhost:4567上查看统计信息 命令行 也可以从命令行运行Cobweb来执行各种预定义的