文件名称:sparkler:火花履带
文件大小:5.1MB
文件格式:ZIP
更新时间:2024-06-01 01:25:51
search search-engine distributed-systems information-retrieval big-data
Web爬网程序是一种机器人程序,可从Web上获取资源以构建搜索引擎,知识库等应用程序。Sparkler(Spark-Crawler的缩写)是一种新的Web爬网程序,它利用了分布式计算的最新进展和信息检索领域,将Spark,Kafka,Lucene / Solr,Tika和pf4j等各种Apache项目整合在一起。 Sparkler是可扩展,高度可扩展的高性能Web搜寻器,它是Apache Nutch的演进版本,可在Apache Spark Cluster上运行。 笔记: Sparkler正在向提出。 在查看提案文档并提供您的建议会在以后完成,最终! Sparkler的显着特征: 提供更高的性能和容错能力:对爬网管道进行了重新设计,以利用Apache Spark的缓存和容错能力。 支持复杂和近乎实时的分析:内部数据结构是由Apache Lucene支持的索引存储,并具有近乎实时地回答复