我可以在风暴爬虫中存储 html 网页内容吗?

Can i store html content of webpage in storm crawler?

我正在使用 strom-crawler-elastic。我可以看到获取的 urls 和它们的状态。 ES_IndexInit.sh 文件中的配置更改仅提供 url、标题、主机、文本。但是我可以用 html 标签存储整个 html 内容吗?

ES IndexerBolt 从 ParseFilter 获取页面内容,但不对其进行任何操作。一种选择是修改代码,以便它从传入的元组中提取 content 字段并为其编制索引。

或者,您可以实现自定义 ParseFilter,它将页面内容复制到元数据键值中,并配置该字段以通过 indexer.md.mapping 在配置文件。

无论哪种方式,您都需要修改 ES_indexInit.sh 以便 ES 中的字段得到索引 and/or 以您想要的方式存储。

.