在 elasticsearch 中删除陈旧文档的最佳实践

Best practise to remove stale documents in elasticsearch

我有一个将模型推送到 elasticsearch 的 django 应用程序。我有一个 post 信号要在保存后更新,但我想编写一个批处理命令来更新所有文档。

在此过程中,我想删除过时的文档(例如,在数据库中设置为非活动、已删除等)。

我是这样开始的:

像这样:

for i in updated_ids:
    q = Q('match', **{'id': i})
    f = f | q if f else q
queryset = dt.search().query(Bool(filter=[~Q(f)]))
for stale in queryset.scan():
    stale.delete()

但是查询变得很长而失败了。

我想知道是否有更有效的方法。

我在 elasticsearch.py 上使用 elasticsearch-dsl。 Django-Haystack 不是一个选项。

我现在就是这样做的:

for dt, updated_ids in self.updated.items():
   existing_ids_in_index = [d.id for d in dt.search().scan()]
   stale_ids = list(set(existing_ids_in_index) - set(updated_ids))
   for stale_id in stale_ids:
       dt.find_one('id', stale_id).delete()
   print("... {}: Removed {}.".format(dt.get_model().__name__, len(stale_ids)))

我可以用 delete_by_query 进一步优化它,但我不确定细节。

master 分支中(即将发布,您只需执行 Search().delete() 即可调用 delete_by_query API.