nutch 配置在不指定深度的情况下抓取整个网站

nutch configuration to crawl entire website without specifying depth

我正在使用 Nutch-1.8 抓取网站和 solr indexing.i 需要抓取整个网站直到最后 child link 没有指定深度参数（-depth）

这是我用来抓取和索引 url 的命令

命令： bin/crawl 种子 brainiademo http://localhost:8983/solr/ 10

语法 : bin/nutch crawl <urlDir> [-solr <solrURL>] [-dir d] [-threads n] [-depth i] [-topN N]

在上面的命令中我不想指定深度参数，即 10。

要在不指定深度参数的情况下抓取整个网站，需要进行哪些配置更改？

我认为你做不到。但解决方法是配置 nutch 仅抓取来自同一域的链接，然后将抓取深度设置为非常大的数字（比如 100 万）。当有链接可以爬取时，Nutch 会一直爬取。一旦没有可抓取的url，无论深度限制，它都会停止。

从 Nutch 1.11 开始，您可以将深度值设置为 -1。参见 crawl script