nutch 配置在不指定深度的情况下抓取整个网站
nutch configuration to crawl entire website without specifying depth
我正在使用 Nutch-1.8 抓取网站和 solr indexing.i 需要抓取整个网站直到最后 child link 没有指定深度参数(-depth)
这是我用来抓取和索引 url 的命令
命令: bin/crawl 种子 brainiademo http://localhost:8983/solr/ 10
语法 : bin/nutch crawl <urlDir> [-solr <solrURL>] [-dir d] [-threads n] [-depth i] [-topN N]
在上面的命令中我不想指定深度参数,即 10。
要在不指定深度参数的情况下抓取整个网站,需要进行哪些配置更改?
我认为你做不到。但解决方法是配置 nutch 仅抓取来自同一域的链接,然后将抓取深度设置为非常大的数字(比如 100 万)。当有链接可以爬取时,Nutch 会一直爬取。一旦没有可抓取的url,无论深度限制,它都会停止。
从 Nutch 1.11 开始,您可以将深度值设置为 -1。参见 crawl script
我正在使用 Nutch-1.8 抓取网站和 solr indexing.i 需要抓取整个网站直到最后 child link 没有指定深度参数(-depth)
这是我用来抓取和索引 url 的命令
命令: bin/crawl 种子 brainiademo http://localhost:8983/solr/ 10
语法 : bin/nutch crawl <urlDir> [-solr <solrURL>] [-dir d] [-threads n] [-depth i] [-topN N]
在上面的命令中我不想指定深度参数,即 10。
要在不指定深度参数的情况下抓取整个网站,需要进行哪些配置更改?
我认为你做不到。但解决方法是配置 nutch 仅抓取来自同一域的链接,然后将抓取深度设置为非常大的数字(比如 100 万)。当有链接可以爬取时,Nutch 会一直爬取。一旦没有可抓取的url,无论深度限制,它都会停止。
从 Nutch 1.11 开始,您可以将深度值设置为 -1。参见 crawl script