Elasticsearch 搜索API

时间:2024-05-01 02:04:51

现在让我们从一些简单的搜索开始。

搜索参数传递有2种方法:

  • URI发送搜索参数
  • 请求体(request body)发送搜索参数

搜索相关的REST API可以从_search端点访问。下面的例子返回bank索引中的所有文档:

API

GET /bank/_search?q=*&sort=account_number:asc&pretty

CURL

curl -X GET "localhost:9200/bank/_search?q=*&sort=account_number:asc&pretty"

本例采用uri方式传递搜索参数:

  • q=* 搜索索引中的所有文档
  • sort=account_number:asc 搜索结果以字段account_number升序排列
  • pretty 返回结果以漂亮的JSON格式打印

响应:


{
"took" : 55,
"timed_out" : false,
"_shards" : {
"total" : 1,
"successful" : 1,
"skipped" : 0,
"failed" : 0
},
"hits" : {
"total" : {
"value" : 1000,
"relation" : "eq"
},
"max_score" : null,
"hits" : [
{
"_index" : "bank",
"_type" : "_doc",
"_id" : "0",
"_score" : null,
"_source" : {
"account_number" : 0,
"balance" : 16623,
"firstname" : "Bradshaw",
"lastname" : "Mckenzie",
"age" : 29,
"gender" : "F",
"address" : "244 Columbus Place",
"employer" : "Euron",
"email" : "bradshawmckenzie@euron.com",
"city" : "Hobucken",
"state" : "CO"
},
"sort" : [
0
]
},
{
"_index" : "bank",
"_type" : "_doc",
"_id" : "1",
"_score" : null,
"_source" : {
"account_number" : 1,
"balance" : 39225,
"firstname" : "Amber",
"lastname" : "Duke",
"age" : 32,
"gender" : "M",
"address" : "880 Holmes Lane",
"employer" : "Pyrami",
"email" : "amberduke@pyrami.com",
"city" : "Brogan",
"state" : "IL"
},
"sort" : [
1
]
}, ... ]
}
}

看一下响应中的重要字段:

  • took – 搜索时间(毫秒)
  • timed_out – 搜索是否超时
  • _shards – 搜索了多少分片,搜索分片的成功/失败计数
  • hits – 搜索结果
  • hits.total – 搜索命中总数信息
    • hits.total.value - 命中总数
    • hits.total.relation - 取值eq(等于)/gte(大于等于),表示hits.total.value与实际的搜索命中数量的关系。
  • hits.hits – 实际的搜索结果数组(默认为前10个文档)
  • hits.sort - 结果排序键(如果按分数排序,则忽略)
  • hits._scoremax_score - 分数是衡量文档与搜索条件匹配程度的一个指标。分数越高,文档越相关,分数越低,文档越不相关。并不总是需要生成分数,需不需要Elasticsearch会自动判断,以避免计算无用的分数。

如果搜索结果很多,超过一定数量后,通常就不再统计,只是笼统地表示为:搜索结果超过XXXX个。hits.total的准确性由请求参数track_total_hits控制,当track_total_hitstrue时,搜索时将精确地跟踪总命中数(“relationship”:“eq”)。track_total_hits默认值为10,000,意味着总命中数可以精确地跟踪到10000个文档,如果超过10000,会表示为超过10000个结果,如下所示:

    "total" : {
"value" : 10000,
"relation" : "gte"
},

通过将track_total_hits显式地设置为true,可以强制进行准确计数。详细信息,请参阅request body文档。

同样的例子,使用请求体(request body)发送搜索参数:

API

GET /bank/_search
{
"query": { "match_all": {} },
"sort": [
{ "account_number": "asc" }
]
}

CURL

curl -X GET "localhost:9200/bank/_search" -H 'Content-Type: application/json' -d'
{
"query": { "match_all": {} },
"sort": [
{ "account_number": "asc" }
]
}
'

可以看到,没有在URI中传递q=*,而是向_search API传递json风格的请求体,下一节中会详细讨论。

注意,一旦获得了搜索结果,Elasticsearch就会结束这次搜索,不会再维护任何服务端资源,也没有结果游标,这与其他很多平台,如SQL,不一样。