Fetch_Error 时自动删除 Fetched 记录

Deleting the Fetched records automatically when Fetch_Error occurs

在 Storm Crawler 1.13 上工作,运行 爬虫在一个网站上成功,其中一个页面在网站上被删除,根据下一个 crawler-conf重新访问更新为 FETCH_ERROR 的状态索引以查找丢失的 url,当我检查主索引时,记录仍然存在 url.如何在 FETCH_ERROR 出现时自动删除该记录。

FETCH_ERROR 状态在多次连续尝试后转换为错误(由 fetch.error.count 设置)。完成后,将在 deletion stream by the AbstractStatusUpdaterBolt 上发送一个元组,如果您连接了 DeletionBolt,则 URL 将从 Elasticsearch 的内容索引中删除。它将保留在状态索引中,并根据错误的调度重新访问或不访问。