在 Scrapy CrawalSpider 中拒绝 URL 序列

Deny URL sequence in Scrapy CrawalSpider

我有一个 scrapy 蜘蛛,它在网站上抓取社交联系。我希望它拒绝包含“/products”、“/collections”等的 url。 这是我的 LinkExtractor 规则。

rules = (
    Rule(LinkExtractor(allow_domains=allowed_domains),
         callback='parse_page', process_links='process_links', follow=True),
)

我检查了很多解决方案,但我无法在我的脚本中使用它们。

这应该有效:

rules = (
    Rule(LinkExtractor(allow_domains=allowed_domains, deny=('/products/*','/collections/*', )),
         callback='parse_page', process_links='process_links', follow=True),
)

在scrapy文档中可以看到一个example