lucene4.x收集器Collector介绍

时间:2022-12-20 03:15:47

Collector

        主要用于从搜索中收集原始结果,并实现排序或自定义结果过滤、排序等。包含以下四个抽象方法:
        setScorer:在连续调用collect方法之前调用,需要文档评分的实现,需要保存传递进来的Scorer,并在需要的时候调用Scorer.score()。
        collect:使用非基于文档的编号,为每一个匹配查询的文档调用一次。当前段的收集可以通过抛出CollectionTerminatedException来终止。在这种情况下,当前AtomicReaderContext剩余的doc将被跳过,IndexSearcher会吞掉异常然后继续收集下一个段。这个方法在搜索循环中被调用。为了良好的性能,实现的这个方法不应该在每次命中时调用IndexSearcher.doc(int)或者org.apache.lucene.index.IndexReader.document(int)方法,否则会使搜索速度降低一个数量级或更多。
        setNextReader:在从每个AtomicReaderContext中收集之前调用。collect(int)中的所有文档编号都是相对于IndexReaderContext.reader的。
        acceptsDocsOutOfOrder:如果收集器不需要匹配的文档id以整数从小到大的排序来收集则返回true。大多数Lucene查询实现按顺序访问匹配的文档id。如果收集器允许文档id不按顺序返回,一些查询可以实现更快的查询。