Nutch 2.x 运行 每 URL 每一次

Nutch 2.x run every URL every time

在Nutch 2.2.1 中,当我每次运行 Nutch 时,它将抓取所有URL 包括我已经抓取的。我希望一个 URL 只被抓取一次,无论 Nutch 运行s 多少次。我该如何配置它?

抓取一个网站后,Nutch将该网站的URL标记为FETCHEDURL,下一轮抓取时不会再抓取URL。默认情况下,Nutch 将在 30 天后重新抓取。您可以通过修改 db.fetch.interval.default 属性.

更改页面重新获取之间的默认秒数

希望对您有所帮助,

乐国岛