auto-phrase-tokenfilter:Lucene自动短语TokenFilter实现

时间:2024-05-21 23:40:14
【文件属性】:

文件名称:auto-phrase-tokenfilter:Lucene自动短语TokenFilter实现

文件大小:20KB

文件格式:ZIP

更新时间:2024-05-21 23:40:14

Java

自动短语令牌过滤器 Lucene自动短语TokenFilter实现 对令牌流执行“自动短语编制”。 自动短语是指标记序列,旨在描述单个事物,因此应进行搜索。 当在令牌流中检测到这些短语时,将发出代表该短语的单个令牌,而不是组成该短语的各个令牌。 过滤器支持重叠短语。 Autophrasing过滤器可以与同义词过滤器结合使用,以处理词组中的前缀或后缀词与词组同义,而词组其他部分不相同的情况。 这使得短语中的搜索可以有选择地发生,而不是随机发生。 ##概述 搜索引擎通过“反向”映射术语或“令牌”到包含它们的文档来工作。 有时,单个令牌唯一地描述现实世界的实体或事物,但在许多其他情况下,则需要多个令牌。 这带来的问题是在多个实体描述中可能使用相同的令牌-多对多问题。 当用户搜索特定的概念或“事物”时,由于这种歧义性,结果常常使他们感到困惑-搜索引擎返回的文档中包含单词,但不一定包含他们所寻找


【文件预览】:
auto-phrase-tokenfilter-master
----LICENSE.txt(11KB)
----src()
--------test()
--------main()
----README.md(7KB)
----build.xml(4KB)
----ivy()
--------ivy-settings.xml(159B)
----ivy.xml(1KB)

网友评论