如何通知Nutch避免爬取网站列表

Question

我正在使用 Apache nutch 2.2.1。我的爬虫正在抓取整个网络，即没有应用过滤器。我有几个网站不想永远被 nutch 抓取。

如何实现？

Answer 1

您是否尝试过在配置中输入特定的 "seed URLs"，例如http://my.site.to/crawl（替换为更有用的东西）

文件夹 /conf/urls 中应该有一个名为 "seed.txt" 的配置文件。

Answer 2

我想在 Apache nutch 配置目录下，有一个文件名 regex-urlfilter.txt。这将完成您正在寻找的工作。例如，如果你必须阻止网站 http://wiki.thm.com 那么你在上面的文件

中写下以下内容

-^(http|https)://http://wiki.thm.com.*$

如需进一步学习Nutch wiki。

How to inform Nutch to avoid crawling list of websites