在 Scrapy CrawalSpider 中拒绝 URL 序列

Question

我有一个 scrapy 蜘蛛，它在网站上抓取社交联系。我希望它拒绝包含“/products”、“/collections”等的 url。这是我的 LinkExtractor 规则。

rules = (
    Rule(LinkExtractor(allow_domains=allowed_domains),
         callback='parse_page', process_links='process_links', follow=True),
)

我检查了很多解决方案，但我无法在我的脚本中使用它们。

Answer 1

这应该有效：

rules = (
    Rule(LinkExtractor(allow_domains=allowed_domains, deny=('/products/*','/collections/*', )),
         callback='parse_page', process_links='process_links', follow=True),
)

在scrapy文档中可以看到一个example

在 Scrapy CrawalSpider 中拒绝 URL 序列

Deny URL sequence in Scrapy CrawalSpider

python

scrapy