文件名称:crawler:分布式图像爬虫
文件大小:774KB
文件格式:ZIP
更新时间:2024-07-15 17:59:27
Go
履带式 这是一个分布式图像爬虫。 建筑学 Crawler 使用分布式队列发布带有要抓取的 URL 的消息。 订阅队列的节点拉取消息并抓取 URL。 在抓取页面时发现的新 URL 被发送到队列以供其他节点处理。 Crawler 有两层深度抓取 URL 的硬限制,这意味着它会抓取在它接收到的第一页中找到的 URL,但它会在那里停止(我真的不想下载整个互联网)。 Crawler 使用作为集群队列。 新的 Nats 服务器可以通过配置添加到集群中。 新节点可以通过指向集群主机来订阅队列。 Nats 不提供任何持久性保证,消息可能会丢失。 如果您需要持久性和交付保证,您可能需要查看 ,这是一个分布式邮箱系统,可提供更好的交付保证。 请参阅以了解如何交换队列实现。 Crawler 使用作为存储引擎。 Riak 使用提供强一致性保证,而 Crawler 使用它们来存储计数器和处理的图像集。 如果您想