如何限制 Apache Nutch 仅爬取特定语言的文档

How to restrict Apache Nutch to crawl language specific Documents only

我正在使用 apache Nutch 2.3,我只想从 Web 中抓取那些使用某种特定语言的文档,假设阿拉伯语或至少文档应该包含一些阿拉伯语字符串。

`So is there any option in crawler to do this job?`

是的,您可以使用 Nutch 做到这一点。在您的 nutch xpathfilterconf 中,您可以指定一个语言字段名称,并为您要抓取的任何网站提供适当的 xpath 表达式。

然后,在您的 XPathIndexingFilter 中,您可以过滤语言字段。

或者,如果您正在抓取的网站在 javascript 中的任何地方都没有他们的语言,您可以为网站 bodytext/main 文本添加一个字段名称,然后添加一些签入索引过滤器以查看它是否包含阿拉伯文本。