排序 | Elasticsearch: 权威指南 | Elastic
2024-12-24
为了按照相关性来排序,需要将相关性表示为一个数值。在 Elasticsearch 中, 相关性得分 由一个浮点数进行表示,并在搜索结果中通过 _score
参数返回,
默认排序是 _score
降序。
有时,相关性评分对你来说并没有意义。例如,下面的查询返回所有 user_id
字段包含 1
的结果:
GET /_search { "query" : { "bool" : { "filter" : { "term" : { "user_id" : 1 } } } } }
这里没有一个有意义的分数:因为我们使用的是 filter (过滤),这表明我们只希望获取匹配 user_id: 1
的文档,并没有试图确定这些文档的相关性。
实际上文档将按照随机顺序返回,并且每个文档都会评为零分。
如果评分为零对你造成了困扰,你可以使用 constant_score
查询进行替代:
GET /_search { "query" : { "constant_score" : { "filter" : { "term" : { "user_id" : 1 } } } } }
这将让所有文档应用一个恒定分数(默认为 1
)。它将执行与前述查询相同的查询,并且所有的文档将像之前一样随机返回,这些文档只是有了一个分数而不是零分。
在这个案例中,通过时间来对 tweets 进行排序是有意义的,最新的 tweets 排在最前。
我们可以使用 sort
参数进行实现:
GET /_search { "query" : { "bool" : { "filter" : { "term" : { "user_id" : 1 }} } }, "sort": { "date": { "order": "desc" }} }
你会注意到结果中的两个不同点:
"hits" : { "total" : 6, "max_score" : null, "hits" : [ { "_index" : "us", "_type" : "tweet", "_id" : "14", "_score" : null, "_source" : { "date": "2014-09-24", ... }, "sort" : [ 1411516800000 ] }, ... }
首先我们在每个结果中有一个新的名为 sort
的元素,它包含了我们用于排序的值。
在这个案例中,我们按照 date
进行排序,在内部被索引为 自 epoch 以来的毫秒数 。
long 类型数 1411516800000
等价于日期字符串 2014-09-24 00:00:00 UTC
。
其次 _score
和 max_score
字段都是 null
。
计算 _score
的花销巨大,通常仅用于排序;
我们并不根据相关性排序,所以记录 _score
是没有意义的。如果无论如何你都要计算 _score
,
你可以将 track_scores
参数设置为 true
。
假定我们想要结合使用 date
和 _score
进行查询,并且匹配的结果首先按照日期排序,然后按照相关性排序:
GET /_search { "query" : { "bool" : { "must": { "match": { "tweet": "manage text search" }}, "filter" : { "term" : { "user_id" : 2 }} } }, "sort": [ { "date": { "order": "desc" }}, { "_score": { "order": "desc" }} ] }
排序条件的顺序是很重要的。结果首先按第一个条件排序,仅当结果集的第一个 sort
值完全相同时才会按照第二个条件进行排序,以此类推。
一种情形是字段有多个值的排序, 需要记住这些值并没有固有的顺序;一个多值的字段仅仅是多个值的包装,这时应该选择哪个进行排序呢?
对于数字或日期,你可以将多值字段减为单值,这可以通过使用 min
、 max
、 avg
或是 sum
排序模式 。
例如你可以按照每个 date
字段中的最早日期进行排序,通过以下方法:
"sort": { "dates": { "order": "asc", "mode": "min" } }
官方地址:https://www.elastic.co/guide/cn/elasticsearch/guide/current/_Sorting.html