URL 内容到 HdfsBolt
URL content to HdfsBolt
在 ES 拓扑中,我想在 ElasticSearch 中索引 urls 并将 (url, [title, content]) 的元组转发到 Hdfs 存储。我发现 Apache-storm 有一个合适的 Hdfs bolt,它看起来像一个直接的实现。我想知道在 ES 爬虫拓扑中去哪里找这个元组。你能指出哪个螺栓有这个数据吗?
您不仅需要文本内容,还需要元数据,因为这是存储标题的地方。查看 JSoupParserBolt 在默认流上发出的内容,并将 HDFS bolt 连接到它的输出。
这类似于我们对扩展 HDFS bolt 的 WARC module 所做的,除了 WARC bolt 不需要解析步骤的任何内容并且可以直接连接到 Fetcher 的输出。
在 ES 拓扑中,我想在 ElasticSearch 中索引 urls 并将 (url, [title, content]) 的元组转发到 Hdfs 存储。我发现 Apache-storm 有一个合适的 Hdfs bolt,它看起来像一个直接的实现。我想知道在 ES 爬虫拓扑中去哪里找这个元组。你能指出哪个螺栓有这个数据吗?
您不仅需要文本内容,还需要元数据,因为这是存储标题的地方。查看 JSoupParserBolt 在默认流上发出的内容,并将 HDFS bolt 连接到它的输出。
这类似于我们对扩展 HDFS bolt 的 WARC module 所做的,除了 WARC bolt 不需要解析步骤的任何内容并且可以直接连接到 Fetcher 的输出。