为什么 nutch 总是创建 linkdb,即使它不需要内容获取?

why does nutch always create the linkdb, even though it's not need for content fetching?

我正在通读有关 hadoop 中的 nutch 的章节,权威指南。我了解使用反向 link 对页面进行排名的概念。但是,当您只想抓取几个站点时,我看不到它发挥作用。由于创建linkdb是一个map reduce的工作,势必会占用大量的计算资源。我只是想知道为什么当大多数 nutch 用例只是获取指定 url 的 Web 内容时总是生成 linkdb。

那是因为 Nutch 使用页面排名(使用 link 信息计算)来确定抓取的优先级。例如,具有高页面排名的 link 将比具有低页面排名的页面更早被抓取。

Nutch 被设计为用作大型网络爬虫,因此计算网页排名和对网页进行评分曾经是并且仍然是一个重要的组件。如果您要抓取几个站点,那么您可能应该使用 scrappy(一个 python 库)。

我希望这能回答你的问题。