文件名称:nutch-crawler:Apache Nutch fork 针对 Web 服务和数据发现进行了调整
文件大小:2.73MB
文件格式:ZIP
更新时间:2024-06-25 03:34:07
Java
纳奇爬行者 BCube Crawler 是 Apache Nutch 项目(1.9 版)的一个分支,经过调整后可以在 Amazon 的 ElasticMapReduce 上运行,并针对 Web 服务和数据发现进行了优化。 动机 建立一个健康的 Hadoop 集群并不总是一件容易的事,使应用程序运行良好的变量可能会给项目增加很多开销。 ElasticMapReduce 顾名思义,是一个“MapReduce 即服务”平台,允许用户创建可调整大小的 Hadoop 集群并运行 MapReduce 作业。 亚马逊 EMR 平台的一个关键优势是可以灵活地动态调整集群大小,并且可以使用 Spot 实例以更低的成本动态增加计算能力。 EMR 有一些限制,比如预配置的 MR 设置,或者它只支持一组。 如果我们尝试使用 EMR API 运行 Nutch,那么自 Nutch 1.7 以来,“多合一” Craw