StormCrawler 如何识别种子网址？

how StormCrawler identifies seed urls?

我在 mysql 中使用 Storm 爬虫。

我有 100 个种子网址，但我的缓冲区大小只有 50 个。

如果一些种子的外链落在桶号 0 中会发生什么。在那种情况下，这些外链是否也会被视为种子？

storm 爬虫如何区分种子 url 与其他 url？

不确定我是否理解你的问题。种子 URL 和非种子 URL 之间没有区别。 StormCrawler 不会以任何特定方式识别它们。术语 种子 URL 仅表示将它们作为起点提供给抓取工具。

桶不用于确定 URL 的优先级或区分它们，它们基于主机名或域，以便多个 spout 实例可以并行读取它们并保证站点的良好多样性以达到性能目的。

StormCrawler 中的 SQL 模块不如 SOLR 或 Elasticsearch 等其他后端高效。它适用于一些网站，但除此之外效率可能较低。