如何通知Nutch避免爬取网站列表

How to inform Nutch to avoid crawling list of websites

我正在使用 Apache nutch 2.2.1。我的爬虫正在抓取整个网络,即没有应用过滤器。我有几个网站不想永远被 nutch 抓取。

如何实现?

您是否尝试过在配置中输入特定的 "seed URLs",例如http://my.site.to/crawl(替换为更有用的东西)

文件夹 /conf/urls 中应该有一个名为 "seed.txt" 的配置文件。

我想在 Apache nutch 配置目录下,有一个文件名 regex-urlfilter.txt。这将完成您正在寻找的工作。例如,如果你必须阻止网站 http://wiki.thm.com 那么你在上面的文件

中写下以下内容
-^(http|https)://http://wiki.thm.com.*$

如需进一步学习Nutch wiki