了解Scrapy Debug信息

Question

我想在执行 scrapy 运行

时了解下一行中单词 referer 的含义

2021-01-05 19:08:08 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.eaton.com/us/en-us/catalog/services/eaton-ups-and-battery-training/ups-first-responder-training/eaton-9315-training.html> (referer: https://www.eaton.com/us/en-us/sitemap.html)

Answer 1

在 Scrapy 中，如果你首先产生一个请求说 example.com 然后在该请求的解析函数中你产生另一个请求说 google.com 然后 scrapy 会自动添加一个 referer header 来自您来自的页面。这是为了模拟浏览器的工作方式。它只是告诉服务器您来自哪个站点。

您可以在 settings.py 中使用 REFERER_ENABLED = False

禁用此功能

了解Scrapy Debug信息

Understand Scrapy Debug information

scrapy