通过修改nutch来聚焦爬虫

focused crawler by modifying nutch

我想使用 nutch 创建一个有针对性的爬虫。有什么办法可以修改nutch,让爬行速度更快吗?我们能否使用 nutch 中的元数据来训练分类器,以减少 nutch 必须为给定主题抓取的 url 数量?

如果提取的 url 可以通过正则表达式进行区分,您可以通过添加特定的正则表达式过滤器来使用当前的 Nutch 来做到这一点。但是,如果您要根据与页面相关的一些元数据功能对 URL 进行分类,则必须实现自定义的 HTMLParseFilter 以在解析步骤中过滤 Outlink[]。 有关如何为 Nutch 开发插件的更多信息,请访问以下链接:

http://wiki.apache.org/nutch/AboutPlugins

http://wiki.apache.org/nutch/WritingPluginExample