如何使用StormCrawler将网站内容存储在Status Index中？

Question

我们正在尝试将网页内容与 url、状态和元数据信息一起存储在 状态索引 中。

我们尝试编辑 ES_IndexInit.sh 并在“状态”映射部分添加下一个属性：

"content": {
                "type": "text",
                "index": "true",
                "store": true
            }

but we can't see anything in Kibana after crawling process.

我们的猜测是我们必须更改风暴爬虫项目中的 Java 源代码，但不知道如何进行。

任何见解都会非常有帮助。提前谢谢你。

Answer 1

内容通常存储在单独的索引中，状态索引主要用于安排 URL 和保存其元数据。它也可能会对性能产生影响。

如果这是您想要继续的方式，您可以编写自定义 ParseFilter 以将文本内容存储在元数据中。像往常一样，您需要将用于存储文本的密钥添加到列出元数据的配置条目中以保留在状态索引中 (metadata.persist)

How to store the content of the website in the Status Index using StormCrawler?