文件名称:nutch
文件大小:7.92MB
文件格式:ZIP
更新时间:2024-04-15 07:49:31
网络框架
Apache Nutch是一个高度可扩展和可扩展的开源Web爬网程序软件项目。 Nutch来自Apache Lucene,是一个成熟的,可立即投入生产的批处理搜寻器,它依赖于Apache Hadoop数据结构,非常适合批处理。 Nutch具有模块化体系结构,并提供可插拔和可扩展的接口,例如用于自定义实现的Parse,Index和ScoringFilter,例如用于解析的Apache Tika。 此外,还存在可用于Apache Solr,Elastic Search等的可插入索引器。Nutch可以在单台计算机上运行,但是通过在Hadoop集群中运行而获得了很多优势。 现在退休的Nutch 2.x分支在一个关键方面不同于1.x:通过使用Apache Gora处理对象到持久映射以及存储获取时间,状态,内容和已解析的文本,将存储从任何特定的基础数据存储中抽象出来。 ,外链,内链等到许多NoSQL存储解决方案中。https://mirrors.tuna.tsinghua.edu.cn/apache/nutch/1.18/