在 Scrapy CrawalSpider 中拒绝 URL 序列
Deny URL sequence in Scrapy CrawalSpider
我有一个 scrapy 蜘蛛,它在网站上抓取社交联系。我希望它拒绝包含“/products”、“/collections”等的 url。
这是我的 LinkExtractor 规则。
rules = (
Rule(LinkExtractor(allow_domains=allowed_domains),
callback='parse_page', process_links='process_links', follow=True),
)
我检查了很多解决方案,但我无法在我的脚本中使用它们。
这应该有效:
rules = (
Rule(LinkExtractor(allow_domains=allowed_domains, deny=('/products/*','/collections/*', )),
callback='parse_page', process_links='process_links', follow=True),
)
在scrapy文档中可以看到一个example
我有一个 scrapy 蜘蛛,它在网站上抓取社交联系。我希望它拒绝包含“/products”、“/collections”等的 url。 这是我的 LinkExtractor 规则。
rules = (
Rule(LinkExtractor(allow_domains=allowed_domains),
callback='parse_page', process_links='process_links', follow=True),
)
我检查了很多解决方案,但我无法在我的脚本中使用它们。
这应该有效:
rules = (
Rule(LinkExtractor(allow_domains=allowed_domains, deny=('/products/*','/collections/*', )),
callback='parse_page', process_links='process_links', follow=True),
)
在scrapy文档中可以看到一个example