Elasticsearch系列---聚合查询原理

概要

本篇主要介绍聚合查询的内部原理，正排索引是如何建立的和优化的，fielddata的使用，最后简单介绍了聚合分析时如何选用深度优先和广度优先。

正排索引

聚合查询的内部原理是什么，Elastichsearch是用什么样的数据结构去执行聚合的？用倒排索引吗？

工作原理

我们了解到倒排索引对搜索是非常高效的，但是在排序或聚合操作方面，倒排索引就显得力不从心，例如我们举个实际案例，假设我们有两个文档：

I have a friend who loves smile
love me, I love you

为了建立倒排索引，我们先按最简单的用空格把每个单词分开，可以得到如下结果：

*表示该列文档中有这个词条，为空表示没有该词条

Term	doc1	doc2
I	*	*
have	*
a	*
friend	*
who	*
loves	*
smile	*
love		*
me		*
you		*

如果我们要搜索love you，我们只需要查找包含每个词条的文档：

Term	doc1	doc2
love		*
you		*

搜索是非常高效的，倒排索引根据词条来排序，我们首先在词条列表中打到love，然后扫描所有的列，可以快速看到doc2包含这个关键词。

但聚合操作呢？我们需要找到doc2里所有唯一的词条，用倒排索引来完成，代价就非常高了，需要迭代索引的每个词条，看一下有没有doc2，有就把这个词条收录起来，没有就检查下一个词条，直到整个倒排索引全部搜索完成。很慢而且难以扩展，并且会随着数据量的增加而增加。

聚合查询肯定不能用倒排索引了，那就用正排索引，建立的数据结构将变成这样：

Doc	terms
doc1	I, have, a, friend, who, loves, smile
doc2	love, me, I, you

这样的数据结构，我们要搜索doc2包含多少个词条就非常容易了。

倒排索引+正排索引结合的优势

如果聚合查询里有带过滤条件或检索条件，先由倒排索引完成搜索，确定文档范围，再由正排索引提取field，最后做聚合计算。

这样才是最高效的

帮助理解两个索引结构

倒排索引，类似JAVA中Map的k-v结构，k是分词后的关键词，v是doc文档编号，检索关键字特别容易，但要找到aggs的value值，必须全部搜索v才能得到，性能比较低。

正排索引，也类似JAVA中Map的k-v结构，k是doc文档编号，v是doc文档内容，只要有doc编号作参数，提取相应的v即可，搜索范围小得多，性能比较高。

底层原理

基本原理

正排索引也是索引时生成(index-time)，倒排索引也是index-time。
核心写入原理与倒排索引类似，同样基于不变原理设计，也写os cache，磁盘等，os cache要存放所有的doc value，存不下时放磁盘。
性能问题，jvm内存少用点，os cache搞大一些，如64G内存的机器，jvm设置为16G，os cache内存给个32G左右，os cache够大才能提升正排索引的缓存和查询效率。

column压缩

正排索引本质上是一个序列化的链表，里面的数据类型都是一致的（不一致说明索引建立不规范），压缩时可以大大减少磁盘空间、提高访问速度，如以下几种压缩技巧：

如果所有的数值各不相同（或缺失），设置一个标记并记录这些值
如果这些值小于 256，将使用一个简单的编码表
如果这些值大于 256，检测是否存在一个最大公约数
如果没有存在最大公约数，从最小的数值开始，统一计算偏移量进行编码

例如：

doc1: 550

doc2: 600

doc3: 500

最大公约数50，压缩后的结果可能是这样：

doc1: 11

doc2: 12

doc3: 10

同时最大公约数50也会保存起来。

禁用正排索引

正排索引默认对所有字段启用，除了analyzed text。也就是说所有的数字、地理坐标、日期和不分析(not_analyzed)字符类型都会默认开启。针对某些字段，可以不存正排索引，减少磁盘空间占用（生产不建议使用，毕竟无法预知需求的变化），示例如下：

# 对字段sessionId取消正排索引

PUT music

{

  "mappings": {

    "_doc": {

      "properties": {

        "sessionId": {

          "type":   "keyword",

          "doc_values": false

        }

      }

    }

  }

}

同样的，我们对倒排索引也可以取消，让一个字段可以被聚合，但是不能被正常检索，示例如下：

PUT music

{

  "mappings": {

    "_doc": {

      "properties": {

        "sessionId": {

          "type":   "keyword",

          "doc_values": true,

          "index": false

        }

      }

    }

  }

}

fielddata原理

上一小节我们提到，正排索引对分词的字段是不启用的，如果我们尝试对一个分词的字段进行聚合操作，如music索引的author字段，将得到如下提示：

Fielddata is disabled on text fields by default. Set fielddata=true on [author] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory. Alternatively use a keyword field instead.

这段提示告诉我们，如果分词的字段要支持聚合查询，必须设置fielddata=true，然后把正排索引的数据加载到内存中，这会消耗大量的内存。

解决办法：

设置fielddata=true
使用author.keyword字段，建立mapping时有内置字段的设置。

内部原理

analyzed字符串的字段，字段分词后占用空间很大，正排索引不能很有效的表示多值字符串，所以正排索引不支持此类字段。

fielddata结构与正排索引类似，是另外一份数据，构建和管理100%在内存中，并常驻于JVM内存堆，极易引起OOM问题。

加载过程

fielddata加载到内存的过程是lazy加载的，对一个analzyed field执行聚合时，才会加载，而且是针对该索引下所有的文档进行field-level加载的，而不是匹配查询条件的文档，这对JVM是极大的考验。

fielddata是query-time创建，动态填充数据，而不是不是index-time创建，

内存限制

indices.fielddata.cache.size 控制为fielddata分配的堆空间大小。当你发起一个查询，分析字符串的聚合将会被加载到fielddata，如果这些字符串之前没有被加载过。如果结果中fielddata大小超过了指定大小，其他的值将会被回收从而获得空间(使用LRU算法执行回收)。

默认无限制，限制内存使用，但是会导致频繁evict和reload，大量IO性能损耗，以及内存碎片和gc，这个参数是一个安全卫士，必须要设置：

indices.fielddata.cache.size: 20%

监控fielddata内存使用

Elasticsearch提供了监控监控fielddata内存使用的命令，我们在上面可以看到内存使用和替换的次数，过高的evictions值（回收替换次数）预示着内存不够用的问题和性能不佳的原因：

# 按索引使用 indices-stats API

GET /_stats/fielddata?fields=*

# 按节点使用 nodes-stats API

GET /_nodes/stats/indices/fielddata?fields=*

# 按索引节点

GET /_nodes/stats/indices/fielddata?level=indices&fields=*

fields=*表示所有的字段，也可以指定具体的字段名称。

熔断器

indices.fielddata.cache.size的作用范围是当前查询完成后，发现内存不够用了才执行回收过程，如果当前查询的数据比内存设置的fielddata 的总量还大，如果没有做控制，可能就直接OOM了。

熔断器的功能就是阻止OOM的现象发生，在执行查询时，会预算内存要求，如果超过限制，直接掐断请求，返回查询失败，这样保护Elasticsearch不出现OOM错误。

常用的配置如下：

indices.breaker.fielddata.limit：fielddata的内存限制，默认60%
indices.breaker.request.limit：执行聚合的内存限制，默认40%
indices.breaker.total.limit：综合上面两个，限制在70%以内

最好为熔断器设置一个相对保守点的值。fielddata需要与request断路器共享堆内存、索引缓冲内存和过滤器缓存，并且熔断器是根据总堆内存大小估算查询大小的，而不是实际堆内存的使用情况，如果堆内有太多等待回收的fielddata，也有可能会导致OOM发生。

ngram对fielddata的影响

前缀搜索一章节我们介绍了ngram，ngram会生成大量的词条，如果这个字段同时设置fielddata=true的话，那么会消耗大量的内存，这里一定要谨慎。

fielddata精细化控制

fielddata过滤

过滤的主要目的是去掉长尾数据，我们可以加一些限制条件，如下请求：

PUT /music/_mapping/children

{

  "properties": {

    "tags": {

      "type": "text",

      "fielddata": true,

      "fielddata_frequency_filter": {

        "min": 0.001,

        "max": 0.1,

        "min_segment_size": 500

      }

    }

  }

}

fielddata_frequency_filter过滤器会基于以下条件进行过滤：

出现频率介绍0.1%和10%之间
忽略文档个数小于500的段文件

fidelddata是按段来加载的，所以出现频率是基于某个段计算得来的，如果一个段内只有少量文档，统计词频意义不大，等段合并到大的段当中，超过500个文档这个限制，就会纳入计算。

fielddata数据对内存的占用是显而易见的，对fielddata过滤长尾是一种权衡。

序号标记预加载

假设我们的文档用来标记状态有几种字符串：

SUCCESS
FAILED
PENDING
WAIT_PAY

状态这类的字段，系统设计时肯定是可以穷举的，如果我们存储到Elasticsearch中也用的是字符串类型，需要的存储空间就会多一些，如果我们换成1，2，3，4这种Byte类型的，就可以节省很多空间。

"序号标记"做的就是这种优化，如果文档特别多（PB级别），那节省的空间就非常可观，我们可以对这类可以穷举的字段设置序号标记，如下请求：

PUT /music/_mapping/children

{

  "properties": {

    "tags": {

      "type": "text",

      "fielddata": true,

      "eager_global_ordinals": true

    }

  }

}

深度优先VS广度优先

Elasticsearch的聚合查询时，如果数据量较多且涉及多个条件聚合，会产生大量的bucket，并且需要从这些bucket中挑出符合条件的，那该怎么对这些bucket进行挑选是一个值得考虑的问题，挑选方式好，事半功倍，效率非常高，挑选方式不好，可能OOM，我们拿深度优先和广度优先这两个方式来讲解。

我们举个电影与演员的例子，一部电影由多名演员参与，我们搜索的需求：出演电影最多的10名演员以及他们合作最多的5名演员。

如果是深度优先，示例图如下：

Elasticsearch系列---聚合查询原理

这种查询方式需要构建完整的数据，会消耗大量的内存。假设我们每部电影有10位演员（1主9配），有10万部电影，那么第一层的数据就有10万条，第二层为9*10万=90万条，共100万条数据。

我们对这100万条数据进行排序后，取主角出演次数最多的10个，即10条数据，裁掉99加上与主角合作最多的5名演员，共50条数据。

构建了100万条数据，最终只取50条，内存是不是有点浪费？

如果是广度优先，示例图如下：

Elasticsearch系列---聚合查询原理

这种查询方式先查询电影主角，取前面10条，第一层就只有10条数据，裁掉其他不要的，然后找出跟主角有关联的配角人员，与合作最多的5名，共50条数据。

聚合查询默认是深度优先，设置广度优先只需要设置collect_mode参数为breadth_first，示例：

GET /music/children/_search

{

  "size": 0,

  "aggs": {

    "lang": {

      "terms": {

        "field": "language",

        "collect_mode" : "breadth_first"

      },

      "aggs": {

        "length_avg": {

          "avg": {

            "field": "length"

          }

        }

      }

    }

  }

}

注意

使用深度优先还是广度优先，要考虑实际的情况，广度优先仅适用于每个组的聚合数量远远小于当前总组数的情况，比如上面的例子，我只取10位主角，但每部电影都有一位主角，聚合的10位主角组数远远小于总组数，所以是适用的。

另外一组按月统计的柱状图数据，总组数固定只有12个月，但每个月下的数据量特别大，广度优先就不适合了。

所以说，使用哪种方式要看具体的需求。

小结

本篇讲解的聚合查询原理，可以根据实际案例做一些演示，加深一下印象，多阅读一下官网文档，实际工作中这块用到的地方还是比较多的，谢谢。

专注Java高并发、分布式架构，更多技术干货分享与心得，请关注公众号：Java架构社区

可以扫左边二维码添加好友，邀请你加入Java架构社区微信群共同探讨技术

Elasticsearch系列---聚合查询原理

Elasticsearch系列---聚合查询原理的更多相关文章

Elasticsearch(9) --- 聚合查询(Bucket聚合)
Elasticsearch(9) --- 聚合查询(Bucket聚合) 上一篇讲了Elasticsearch聚合查询中的Metric聚合:Elasticsearch(8) --- 聚合查询(Metri ...
ElasticSearch实战系列五&colon; ElasticSearch的聚合查询基础使用教程之度量(Metric)聚合
Title:ElasticSearch实战系列四: ElasticSearch的聚合查询基础使用教程之度量(Metric)聚合前言在上上一篇中介绍了ElasticSearch实战系列三: Elas ...
Elasticsearch(8) --- 聚合查询(Metric聚合)
Elasticsearch(8) --- 聚合查询(Metric聚合) 在Mysql中,我们可以获取一组数据的最大值(Max).最小值(Min).同样我们能够对这组数据进行分组(Group).那么 ...
Elasticsearch系列---增量更新原理及优势
概要本篇主要介绍增量更新(partial update,也叫局部更新)的核心原理,介绍6.3.1版本的Elasticsearch脚本使用实例和增量更新的优势. 增量更新过程与原理简单回顾前文我们 ...
java操作elasticsearch实现聚合查询
1.max 最大值 //max 求最大值 @Test public void test30() throws UnknownHostException{ //1.指定es集群 cluster.name ...
elasticsearch 简单聚合查询示例
因为懒癌犯了,查询语句使用的截图而不是文字,导致了发布随笔的时候提示少于150字的随笔不能发布. 我就很郁闷了. 下面的查询都是前段时间工作中使用过的查询语句. 开始的时候是使用nodejs构建es查 ...
Elasticsearch系列---shard内部原理
概要本篇我们来看看shard内部的一些操作原理,了解一下人家是怎么玩的. 倒排索引倒排索引的结构,是非常适合用来做搜索的,Elasticsearch会为索引的每个index为analyzed的字段 ...
elasticsearch相关聚合查询示例
索引(index):logstash-nginx-*,type:nginx_access 请求路径: 1.按照某个字段进行分组统计访问量 { "query": { "bo ...
java使用elasticsearch分组进行聚合查询（group by）-项目中实际应用
java连接elasticsearch 进行聚合查询进行相应操作一:对单个字段进行分组求和 1.表结构图片: 根据任务id分组,分别统计出每个任务id下有多少个文字标题 .SQL:select id ...

随机推荐

Quartz&period;net开源作业调度框架使用详解
前言 quartz.net作业调度框架是伟大组织OpenSymphony开发的quartz scheduler项目的.net延伸移植版本.支持 cron-like表达式,集群,数据库.功能性能强大更不 ...
MyBatis参数传入集合之foreach动态sql
foreach的主要用在构建in条件中,它可以在SQL语句中进行迭代一个集合.foreach元素的属性主要有item,index,collection,open,separator,close.ite ...
java 访问 mysql 数据库的字符集设置
mysql是在linux下,java代码通过jdbc访问总是中文乱码.做过如下尝试: 1)修改 mysql的 my.cnf文件,设置 default-character-set等参数 2) 利用alt ...
top的用法
top命令可以用来方便地观察当前系统中运行的进程的信息,并可以在运行过程中执行改变进程的优先级.更改排序规则.导出状态信息等操作,非常方便. 1.主要选项 -d:后接秒数,状态更新的秒数,默认5秒-b ...
TabBarController和其他view无法建立Relationship segue的原因
拖拽怎么也没有那个出现,最后看sourcecode发现是那个那个viewcrontroler的XML 元素不是TabBarController.在Sourcecode里面改了一下,解决了这个问题. 总 ...
Ext Js v6&period;2&period;0&period;103 Sencha Cmd 命令
Sencha Cmd v6.2.0.103 Sencha Cmd 提供几种全局开关命令. 在大多数案例中, 第一步是在Sencha SDK基础上创建应用例如 Ext JS 或 Sencha Touc ...
android Application Component研究之Activity(二)
http://blog.csdn.net/windskier/article/details/7172710 本文为原创文章,欢迎转载!转载时请注明出处:http://blog.csdn.net/wi ...
OpenModelica 在特定目录下生成仿真结果文件
OMEdit的仿真结果文件存放在:C:\Users\***\AppData\Local\Temp\OpenModelica\OMEdit 可以在仿真时设置仿真结果文件名,可使用用绝对路径或相对路径使 ...
hadoop 问题及解决方式
转自http://www.bkjia.com/ASPjc/931209.html 解决Exception: org.apache.hadoop.io.nativeio.NativeIO$Windows ...
HTML 设置字体
HTML,CSS,font-family:中文字体的英文名称 (宋体微软雅黑) 宋体 SimSun 黑体 SimHei 微软雅黑 Microsoft YaHei 微软正黑体 Microsof ...