Stormcrawler 未使用 Elasticsearch 索引内容
Stormcrawler not indexing content with Elasticsearch
当使用 Stormcrawler 时,它索引到 Elasticsearch,而不是内容。
Stormcrawler up-to-date 'origin/master' https://github.com/DigitalPebble/storm-crawler.git
使用 elasticsearch-5.6.4
crawler-conf.yaml 有
indexer.url.fieldname: "url"
indexer.text.fieldname: "content"
indexer.canonical.name: "canonical"
url 和标题字段已编入索引,但内容未编入索引。
我试图通过遵循 Julien 的教程来实现这一点:https://www.youtube.com/watch?v=xMCuWpPh-4A
一切正常,除了内容没有被索引到 Elasticsearch 中。我觉得这是一些小的配置错误,但我尝试了很多变体但没有成功。所以,现在我寻求帮助。
谢谢。
您确定该内容未编入索引吗?内容字段未存储,请参阅 ES_IndexInit.sh 但应该对其进行索引。要存储它,您可以修改初始化脚本并重新运行 抓取,然后您可以像其他字段一样取回它。要测试它是否已编入索引,请尝试对其进行查询并查看它如何影响结果。
当使用 Stormcrawler 时,它索引到 Elasticsearch,而不是内容。
Stormcrawler up-to-date 'origin/master' https://github.com/DigitalPebble/storm-crawler.git
使用 elasticsearch-5.6.4
crawler-conf.yaml 有
indexer.url.fieldname: "url"
indexer.text.fieldname: "content"
indexer.canonical.name: "canonical"
url 和标题字段已编入索引,但内容未编入索引。
我试图通过遵循 Julien 的教程来实现这一点:https://www.youtube.com/watch?v=xMCuWpPh-4A
一切正常,除了内容没有被索引到 Elasticsearch 中。我觉得这是一些小的配置错误,但我尝试了很多变体但没有成功。所以,现在我寻求帮助。
谢谢。
您确定该内容未编入索引吗?内容字段未存储,请参阅 ES_IndexInit.sh 但应该对其进行索引。要存储它,您可以修改初始化脚本并重新运行 抓取,然后您可以像其他字段一样取回它。要测试它是否已编入索引,请尝试对其进行查询并查看它如何影响结果。