Apache Nutch REST API 从服务器 运行 Nutch 检索数据?

Apache Nutch REST API to retrieve data from server running Nutch?

我正在使用 nutch REST API 在单独的服务器上 运行 nutch 搜索。我想将抓取的数据检索回我的本地机器。有没有一种方法可以使用 nutch dump 功能来转储数据并通过 API 检索它,或者我最好将数据索引到 Solr 中并从 Solr 中检索它。 感谢您的帮助。

目前,REST API 不提供此类功能。 REST API 的主要目的是配置和午餐您的 抓取作业 。它的核心是允许您设置新爬网作业的配置并(在某种程度上)对其进行管理。

爬取数据的传输由您决定。话虽如此,我确实有一些建议:

  • 如果您要将数据发送到 Solr/ES(或任何其他索引器),我建议您直接从那里获取数据。 Solr 和 ES 都已经提供了 REST API,还有一个额外的好处,您可以将哪些数据过滤到 "copy over"。

  • 如果您 运行 Nutch 处于分布式模式(即在 Hadoop 集群中),请尝试使用 Hadoop 库将数据复制到目的地。

如果 none 适用,那么也许值得考虑 rsync 或类似的东西。