ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

时间:2023-01-13 18:33:51

一、基于词项与全文的搜索

  1、词项

    Term(词项)是表达语意的最小单位,搜索和利用统计语言模型进行自然语言处理都需要处理Term。

    Term的使用说明:

    1)Term Level Query:Term Query、Range Query、Exists Query、Prefix Query、Wildcard Query;

    2)在ES中,对于Term查询的输入是不做分词处理的,会将输入作为一个整体,在倒排索引中查找准确的词项,并且使用相关度算分公式为每个包含该词项的文档进行相关度算分;

    3)通过Constant Score将查询转换成一个Filtering,以避免处分,利用缓存,提高查询性能;

  2、词项查询使用

    1)批量创建一个索引,并插入数据,查看该索引的mapping,会发现相应字段是text类型,同时有子字段keyword。

ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

    2)现进行对name或stuId字段的查询。

ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

    3)通过上述对两个字段不同查询条件的,以及查询方式的对比,我们可以总结如下:

      a)对于字段类型为text的字段,其会按照默认analyzer进行分词,如下图所示:STU-001被分词为两个stu和001,所以当查询stu-001或者STU-001是,是无法被索引到相当的文档上去的;

ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

      同理,也就是为什么查询name时,用john可以查询到,用John就无法查询到的原因。因为默认analyzer:standard会将字段name中的大写字母转化为小写,而当以Term方式查询John,Term因为不做分词处理(原样查询),也就无法查询到能够匹配John的信息。而用john查询正好可以查询到相应的文档。

      b)基于此种情况下,用stuId.keyword或者name.keyword,进行原样查询信息查询时,就可以查询到相应的文档。 这是因为相应字段中的子字段keyword是不做分词处理的,所以如果要查询字段中原始内容一样的信息时,要加上column.keyword。

    4)词项算分使用

    通过上图中的查询结果可以看到,相应结果有一个指标_score,这是相应查询文档的算分。

    如果在查询中,希望跳过算分的过程,忽略TF-IDF(TF【词频】:Term Frequency;IDF【逆文本频率指数】:Inverse Document Frequency)的计算,以避免相关性算分而引发的性能开销,可以使用constant_score转化为Filter,取消算分的环节。同时Filter可以有效利用缓存,以提升性能。

  ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

    从上图查询结果可以得到,_score分数为1.0。

  3、全文本查询

  全文本查询的说明:

    1)基于全文本查询有:Match Query、Match Phrase Query、Query String Query;

    2)索引与搜索时都会进行分词,查询字符串会先传递给一个合适的分词器,然后生成一个供查询的词项列表;

    3)查询时,会对输入的查询进行分词,然后每个词项逐个进行查询,同时为每个文档生成一个算分,最终将结果进行合并。例如对STU-001进行查询,若采用默认analyzer,会对相应字段进行stu或001的查询;

    4)如果想对某个字段做精准查询,不想做分词处理,可以在mapping当中,将相应字段由text类型定义成keyword类型;

  ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

  4、全文本查询使用

  ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

  ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

  ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

  ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

、结构化搜索

  结构化数据:日期、数值、布尔都是结构化数据,对于一些文本也是可以为结构化的,比如:对于商品的唯一标识符、商品的标签标注、颜色集合等。

  结构化搜索:就是指对结构化数据的搜索。

  1、对于结构化数据的说明:

    1)对于结构化数据可以进行逻辑操作,比如区间范围的查询、数据大小的比对;

    2)结构化的文本可以做精确匹配(Term查询)或部分匹配(Prefix前缀查询);

     注意:对于Term的模糊查询,建议谨慎使用,有时性能不够好。

    3)结构化结果只有“是”或“否”两个值,根据场景需要,可以决定对结构化搜索是否要打分;

  2、结构化搜索使用

    1)布尔值查询

    ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

    2)数值范围查询

    ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

    3)日期范围查询

      日期符号代表的意思:

      y--年;M--月;

      w--周;d--天;

      H/h--小时;m--分钟;s--秒;      

    ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

    4)字段存在查询

    ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

    ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

    5)字段多值查询

    ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

    通过上图中可以看到,在基于Term的多值查询中,查询某个字段的值,并不是完全的相等处理,而是一种包含关系。

    如果想做精确的匹配,需要在index的文档中增加一个统计字段,结合布尔查询,做出精确匹配,如下图所示:

    ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

、相关性和相关性算分

  1、相关性:就是一个文档与查询语句匹配的程度;

    相关性算分:针对匹配程度,ES会对每个匹配查询的结果进行打分,打分的本质就是排序,将把最符合用户需求的文档排在前面。

    在ES5.0之前,默认的相关性算分算法是TF-IDF,之后采用的是BM25算法。

  2、Term Frequency(TF:词频):就是指检索词在一篇文档中出现的频率,也就是检索词出现的次数除以文档的总字数;

    度量一条查询与结果文档相关性的方法:将搜索中每一个词的TF进行相加,如“ES的特点”,分完词后进行的词频相加,TF(ES)+TF(的)+TF(特点);

    对于一些停用词,如“的”在文档中出现多次,但对于查询相关度的贡献并不是很大,所以不应该考虑这些词的TF;

  3、Document Frequency(DF:文档频率):检索词在所有文档中出现的频率;

    Inverse Document Frequency(IDF:逆文档频率):通过公式:log(全部文档数/检索词出现过的文档总数)

    TF-IDF本质上是将TF的求和变成了加权求和:TF(ES)*IDF(ES)+TF(的)*IDF(的)+TF(特点)*IDF(特点)

  4、在Lucene中,TF-IDF的评分公式如下:

ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

  5、ES5.0之后,算法从TF-IDF变为BM25,如下图所示:

  ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

  TF-IDF当随着TF无限增长时,那算分也不会不断的增长。而BM25算法进行了优化,随着TF的无限增长,算分会逐渐的趋于一个数值。

  6、相关性信息查看

  ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

  通过图中可以看到,因为第二条记录比第一条记录的文档内容短,而导致其tf较高,因此最后的算法也相对于第一条算分高一些,因此在搜索结果顺序上,第二条排在上面。

  Boosting是控制相关度的一种手段,在索引和字段上都是可以设置的。

  Boost的含义:

    1)当boost>1时,打分的相关度相对性提升;

    2)当0<boost<1时,打分的权重相对性降低;

    3)当boost<0时,贡献为负分;

  大家可关注我的公众号

   ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分

  知识学习来源:阮一鸣:《Elasticsearch核心技术与实战》

ElasticStack学习(九):深入ElasticSearch搜索之词项、全文本、结构化搜索及相关性算分的更多相关文章

  1. Elasticsearch结构化搜索与查询

    Elasticsearch 的功能之一就是搜索,搜索主要分为两种类型,结构化搜索和全文搜索.结构化搜索是指有关查询那些具有内在结构数据的过程.比如日期.时间和数字都是结构化的:它们有精确的格式,我们可 ...

  2. ElasticSearch 2 &lpar;13&rpar; - 深入搜索系列之结构化搜索

    ElasticSearch 2 (13) - 深入搜索系列之结构化搜索 摘要 结构化查询指的是查询那些具有内在结构的数据,比如日期.时间.数字都是结构化的.它们都有精确的格式,我们可以对这些数据进行逻 ...

  3. ElasticSearch 结构化搜索全文

    1.介绍 上篇介绍了搜索结构化数据的简单应用示例,现在来探寻 全文搜索(full-text search) :怎样在全文字段中搜索到最相关的文档. 全文搜索两个最重要的方面是: 相关性(Relevan ...

  4. ElasticSearch 结构化搜索

    1.介绍 结构化搜索(Structured search) 是指有关探询那些具有内在结构数据的过程.比如日期.时间和数字都是结构化的:它们有精确的格式,我们可以对这些格式进行逻辑操作. 比较常见的操作 ...

  5. ElasticSearch常用结构化搜索

    最近,需要用到ES的一些常用的结构化搜索命令,因此,看了一些官方的文档,学习了一下.结构化查询指的是查询那些具有内在结构的数据,比如日期.时间.数字都是结构化的. 它们都有精确的格式,我们可以对这些数 ...

  6. elasticsearch 深入 —— 结构化搜索

    结构化搜索 结构化搜索(Structured search) 是指有关探询那些具有内在结构数据的过程.比如日期.时间和数字都是结构化的:它们有精确的格式,我们可以对这些格式进行逻辑操作.比较常见的操作 ...

  7. Elasticsearch系列---结构化搜索

    概要 结构化搜索针对日期.时间.数字等结构化数据的搜索,它们有自己的格式,我们可以对它们进行范围,比较大小等逻辑操作,这些逻辑操作得到的结果非黑即白,要么符合条件在结果集里,要么不符合条件在结果集之外 ...

  8. Elasticsearch 结构化搜索、keyword、Term查询

    前言 Elasticsearch 中的结构化搜索,即面向数值.日期.时间.布尔等类型数据的搜索,这些数据类型格式精确,通常使用基于词项的term精确匹配或者prefix前缀匹配.本文还将新版本的&qu ...

  9. elasticsearch算法之词项相似度算法&lpar;一&rpar;

    一.词项相似度 elasticsearch支持拼写纠错,其建议词的获取就需要进行词项相似度的计算:今天我们来通过不同的距离算法来学习一下词项相似度算法: 二.数据准备 计算词项相似度,就需要首先将词项 ...

随机推荐

  1. angular指令深度学习篇

    angular指令深度学习-过滤器 limitTo ... <body ng-app="app" > <div ng-controller="myCtr ...

  2. ArcGIS Engine开发之旅08--和查询相关的对象和接口

    原文:ArcGIS Engine开发之旅08--和查询相关的对象和接口 查询在GIS领域应该是一个很频繁的操作,在GIS中除了具有属性查询(和其他关系型数据库的查询类似),还提供了空间查询.在介绍查询 ...

  3. &lbrack;精校版&rsqb;The Swift Programming Language

    通常来说,编程语言教程中的第一个程序应该在屏幕上打印“Hello, world”.在 Swift 中,可以用一行代码实现:  println("hello, world")   如 ...

  4. Sum It Up

    http://acm.hdu.edu.cn/showproblem.php?pid=1258 Sum It Up Time Limit: 2000/1000 MS (Java/Others)    M ...

  5. QT IP输入框正则表达式(使用QLineEdit的setValidator函数)

    /* ip输入框正则表达式 */ // IP 前3段 QRegExp regExp("[0-9][0-9.][0-9.][.]"); ui->lineEdit_1->s ...

  6. Centos7 下yum安装mysql

  7. css动画特效

    <html> <head> <meta charset="utf-8" /> <title>6种css3鼠标滑过动画效果</t ...

  8. 动态规划-数位dp

    大佬讲的清楚 [https://blog.csdn.net/wust_zzwh/article/details/52100392] 例子 不要62或4 l到r有多少个数不含62或者4 代码 #incl ...

  9. Android之RecyclerView实现时光轴

    做项目的过程中有个需求需要时光轴,于是网上找了部分资料 ,写了个案例,现在分享给大家. 如图: activity_main.xml <?xml version="1.0" e ...

  10. Hadoop HDFS HA启动出现两个StandBy NameNode

    可能是zkfc服务没有启动,正确的流程如下: 1.在nn001上格式化zkfc sudo -u hdfs hdfs zkfc -formatZK 2.在三个(或以上)节点上启动journalnode ...