Stormcrawler 未使用 Elasticsearch 索引内容

Stormcrawler not indexing content with Elasticsearch

当使用 Stormcrawler 时,它索引到 Elasticsearch,而不是内容。

Stormcrawler up-to-date 'origin/master' https://github.com/DigitalPebble/storm-crawler.git

使用 elasticsearch-5.6.4

crawler-conf.yaml 有

indexer.url.fieldname: "url" indexer.text.fieldname: "content" indexer.canonical.name: "canonical"

url 和标题字段已编入索引,但内容未编入索引。

我试图通过遵循 Julien 的教程来实现这一点:https://www.youtube.com/watch?v=xMCuWpPh-4A

一切正常,除了内容没有被索引到 Elasticsearch 中。我觉得这是一些小的配置错误,但我尝试了很多变体但没有成功。所以,现在我寻求帮助。

谢谢。

您确定该内容未编入索引吗?内容字段未存储,请参阅 ES_IndexInit.sh 但应该对其进行索引。要存储它,您可以修改初始化脚本并重新运行 抓取,然后您可以像其他字段一样取回它。要测试它是否已编入索引,请尝试对其进行查询并查看它如何影响结果。