如何计算 Elasticsearch 中每个令牌的总数

Question

我有一个进入 Elastic 的请求

{  
   "query":{  
      "bool":{  
         "must":[  
            {  
               "query_string":{  
                  "query":"something1 OR something2 OR something3",
                  "default_operator":"OR"
               }
            }
         ],
         "filter":{  
            "range":{  
               "time":{  
                  "gte":date
               }
            }
         }
      }
   }
}

我想在一个请求中使用弹性搜索计算所有文档中每个标记的计数，例如：

something1: 26 documents
something2: 12 documents
something3: 1 documents

Answer 1

您可以将查询拆分为三个过滤器的过滤器聚合。参考看这里：https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-filters-aggregation.html

Answer 2

您需要做的是创建一个 Copy_To 字段并进行如下所示的映射。

根据您的 query_string 查询的字段，您需要将某些或 all 字段包含在 copy_to 字段中。

默认情况下 query_string 搜索所有字段，因此您可能需要为所有字段指定 copy_to 如下图所示，为了简单起见，我只创建了三个字段、title、field_2 和第三个字段 content，它将作为 复制到 字段。

映射

PUT <your_index_name>
{
  "mappings": {
    "mydocs": {
      "properties": {
        "title": {
          "type": "text",
          "copy_to": "content" 
        },
        "field_2": {
          "type": "text",
          "copy_to": "content" 
        },
        "content": {
          "type": "text",
          "fielddata": true
        }
      }
    }
  }
}

示例文档

POST <your_index_name>/mydocs/1
{
  "title": "something1",
  "field_2": "something2"
}

POST <your_index_name>/mydocs/2
{
  "title": "something2",
  "field_2": "something3"
}

查询：

您将使用以下聚合查询获得每个标记所需的文档计数，我已经使用了 Terms Aggregation:

POST <your_index_name>/_search
{
  "size": 0,
  "query": {
    "query_string": {
      "query": "something1 OR something2 OR something3"
    }
  },
  "aggs": {
    "myaggs": {
      "terms": {
        "field": "content",
        "include" : ["something1","something2","something3"]
      }
    }
  }
}

查询响应：

{
  "took": 7,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 2,
    "max_score": 0,
    "hits": []
  },
  "aggregations": {
    "myaggs": {
      "doc_count_error_upper_bound": 0,
      "sum_other_doc_count": 0,
      "buckets": [
        {
          "key": "something2",
          "doc_count": 2
        },
        {
          "key": "something1",
          "doc_count": 1
        },
        {
          "key": "something3",
          "doc_count": 1
        }
      ]
    }
  }
}

如果有帮助请告诉我！

Answer 3

假设标记与枚举不同（即特定值的约束集，如州名，这将构成 terms aggregation your best bet with the right mapping), I think the closest thing to what you want would be to use filters aggregation:

POST your-index/_search
{
  "query":{  
    "bool":{  
      "must":[  
      {  
        "query_string":{  
          "query":"something1 OR something2 OR something3",
          "default_operator":"OR"
         }
      }
      ],
      "filter":{  
        "range":{  
          "time":{  
            "gte":date
          }
        }
      }
    }
  },
  "aggs": {
    "token_doc_counts": {
      "filters" : {
        "filters" : {
          "something1" : { 
            "bool": { 
              "must": { "query_string" : { "query" : "something1" } }, 
              "filter": { "range": { "time": { "gte": date } } } 
            }
          },
          "something2" : { 
            "bool": { 
              "must": { "query_string" : { "query" : "something2" } }, 
              "filter": { "range": { "time": { "gte": date } } } 
            }
          },
          "something3" : { 
            "bool": { 
              "must": { "query_string" : { "query" : "something3" } }, 
              "filter": { "range": { "time": { "gte": date } } } 
            }
          }
        }
      }
    } 
  }
}

响应类似于：

{
  "took": 9,
  "timed_out": false,
  "_shards": ...,
  "hits": ...,
  "aggregations": {
    "token_doc_counts": {
      "buckets": {
        "something1": {
          "doc_count": 1
        },
        "something2": {
          "doc_count": 2
        },
        "something3": {
          "doc_count": 3
        } 
      } 
    } 
  }
}

如何计算 Elasticsearch 中每个令牌的总数

How to calculate total for each token in Elasticsearch

python-3.x

elasticsearch

elasticsearch-py

映射

示例文档

查询：

查询响应：