The high-level full text queries are usually used for running full text queries on full text fields like the body of an email. They understand how the field being queried is analyzed and will apply each field’s analyzer (or search_analyzer) to the query string before executing.
包括match query、match_phrase query、match_phrase_prefix query、multi_match query、common terms query、query_string query、simple_query_string query。
在学习各种query时,可以设置query同级的profile属性值为true来了解es具体是如何解析各query命令的。即请求体如下:
{
"profile": true,
"query": {
}
}
match query
get /website/_search
{
"query":{
"match": {
"name": "kobe bean bryant"
}
}
}
match query接受text类型、numeric类型(包括byte、short、integer、long、float、double等)、date类型字段的查询。如果查询的字段是text类型的话,就是常说的分词查询。查询关键字会被分词,某文档字段值分词后的词条集只要和查询关键字分词后的词条集有交集,就能被查出来。如果查询的字段是numeric类型、date类型,这里查询关键字就不会分词了,查询关键字和文档字段值完全匹配才能查得出来。
multi_match query
get /website/_search
{
"query":{
"multi_match":{
"query":"kobe bean",
"fields":["name", "nick_name"]
}
}
}
multi_match query,顾名思义,多match查询,这里的多指的是一次可以查询多个字段,而不是指定多个查询关键字。如上面的,name字段值match查询关键字kobe bean的文档可以被查出来,nick_name字段值match查询关键字kobe bean的文档也可以被查出来。
在指定查询字段时,还可以用通配符,如
get /website/_search
{
"query":{
"multi_match":{
"query":"kobe bean",
"fields":["name", "*_name"]
}
}
}
这样,nick_name、first_name、last_name等所有以_name为后缀的字段都会被查询,假如某一个字段的值match查询关键字kobe bean,这个文档就会被查出来。
match_phrase query
get /website/_search
{
"query": {
"match_phrase": {
"name": "kobe bean bryant"
}
}
}
在match query的基础上,要求查询关键字在分词后各词条的相对位置(position)要和文档字段值分词后相应词条的相对位置(position)相同,满足这个条件的文档才能被查出来。
假如查询字符串是kobe bean bryant,则分词后会是kobe position 0、bean position 1、bryant position 2,只有同时包含kobe、bean、bryant这三个词条且这三个词条依次紧挨着(中间没有其他词条)的文档才能被查出来,在文档字段值中kobe bean bryant前后有没有其他单词无所谓。例如,通过kobe bean bryant进行match_phrase query可以查询出字段值是john kobe bean bryant peter的文档,也可以查询出@kobe bean bryant@的文档,因为字符串在被standard分析器处理时,@字符会被直接忽略掉。
从另一个角度理解,不考虑分析器处理造成的大小写转换、特殊符号省略的话,只有文档字段值contains查询字符串的文档才会被查出来。
match_phrase_prefix query
get /website/_search
{
"query": {
"match_phrase_prefix": {
"name": "kobe bean b"
}
}
}
和match_phrase query差不多,区别是查询关键字最后一个单词可以只写前面一个或几个字符,如用kobe bean b进行match_phrase_prefix query可以查出字段值是kobe bean bryant的文档,也可以查出字段值是kobe bean brother的文档,后者用kobe bean bryant进行match_phrase query查不出来。
query_string query
get /website/_search
{
"query":{
"query_string": {
"default_field": "name",
"query": "Kobe Bean OR Steven Jobs"
}
}
}
query_string query在查询text类型字段和keyword类型字段时,解析是不一样的。
如果查询字段是text类型,query_string query会把查询关键字依据分割符(默认是大写的OR)分割,然后用分割后的子字符串在指定字段上查询。如上,Kobe Bean OR Steven Jobs会被分割成Kobe Bean和Steven Jobs,然后在name字段上查询。Kobe Bean会被standard分析器处理成kobe和bean,Steven Jobs会被standard分析器处理成steven和jobs,name字段值被分析器处理后只要有这4个词条中的一个,该文档就会被查出来。
如果查询字段是keyword类型,则又要根据查询关键字有没有分割符分为两种情况:如果没有分隔符,比如查询关键字是Kobe Bean,这个时候查询关键字不会被任何分析器处理,故此时相当于term query,只有字段值是Kobe Bean的文档才会被查询出来。如果有分割符,比如查询关键字是Kobe Bean OR Steven Jobs,则查询关键字还是先被OR分割成Kobe Bean和Steven Jobs,然后Kobe Bean会被whitespace分析器处理成Kobe和Bean,Steven Jobs会被whitespace分析器处理成Steven和Jobs。之后转化成4个term query,彼此之间是or的关系,只要满足一个,即字段值只要是Kobe、Bean、Steven、Jobs中的任意一个,文档就能被查出来。
以上分析过程是通过设置profile等于true分析出来的。
从上面分析过程可以看出,如果查询字段是text类型,并且查询关键字没有分隔符的话,query_string query和match query效果是一样的。
query_string query还可以像multi_match query一样,一次查询多个字段,只需用fields关键字代替default_field,并且指定一个字段数组即可。
get website/_search
{
"query": {
"query_string": {
"fields" : ["name", "nick_name"],
"query": "Kobe Bean OR Steven Jobs"
}
}
}
simple_query_string query
get website/_search
{
"query": {
"simple_query_string": {
"fields" : ["name", "nick_name"],
"query": "Kobe Bean OR Steven Jobs"
}
}
}