Scrapy response.status 不是 100% 准确?

Scrapy response.status not 100% accurate?

我正在使用 l.add_value('http_status', response.status) 捕获每个域的响应状态并将其存储在 SQL 数据库中,但某些域没有响应状态(空)。起初,我以为他们可能会阻止 scrapy,但是当我 运行 再次在这些域上进行 scrapy 时,我得到了 200 的状态。在我使用 urllib 进行第二次检查之前,我想我会在这里问一下如果有人以前经历过或有任何建议。

请求未收到响应有几个原因,

1)DNS 未及时找到,即未解析(增加 DNS_TIMEOUT

2)服务器需要一段时间才能响应(增加DOWNLOAD_TIMEOUT

3)如果您正在检查大于 1Gb 的大文件(增加 DOWNLOAD_MAXSIZE

4)您这边的 Internet 连接问题(DNS 已解决,但之后您失去了连接)

5)网络服务器暂时宕机