我可以在风暴爬虫中存储 html 网页内容吗？

Can i store html content of webpage in storm crawler?

我正在使用 strom-crawler-elastic。我可以看到获取的 urls 和它们的状态。 ES_IndexInit.sh 文件中的配置更改仅提供 url、标题、主机、文本。但是我可以用 html 标签存储整个 html 内容吗？

ES IndexerBolt 从 ParseFilter 获取页面内容，但不对其进行任何操作。一种选择是修改代码，以便它从传入的元组中提取 content 字段并为其编制索引。

或者，您可以实现自定义 ParseFilter，它将页面内容复制到元数据键值中，并配置该字段以通过 indexer.md.mapping 在配置文件。

无论哪种方式，您都需要修改 ES_indexInit.sh 以便 ES 中的字段得到索引 and/or 以您想要的方式存储。

.