Scrapy response.status 不是 100% 准确?
Scrapy response.status not 100% accurate?
我正在使用 l.add_value('http_status', response.status)
捕获每个域的响应状态并将其存储在 SQL 数据库中,但某些域没有响应状态(空)。起初,我以为他们可能会阻止 scrapy,但是当我 运行 再次在这些域上进行 scrapy 时,我得到了 200 的状态。在我使用 urllib 进行第二次检查之前,我想我会在这里问一下如果有人以前经历过或有任何建议。
请求未收到响应有几个原因,
1)DNS 未及时找到,即未解析(增加 DNS_TIMEOUT
)
2)服务器需要一段时间才能响应(增加DOWNLOAD_TIMEOUT
)
3)如果您正在检查大于 1Gb 的大文件(增加 DOWNLOAD_MAXSIZE
)
4)您这边的 Internet 连接问题(DNS 已解决,但之后您失去了连接)
5)网络服务器暂时宕机
我正在使用 l.add_value('http_status', response.status)
捕获每个域的响应状态并将其存储在 SQL 数据库中,但某些域没有响应状态(空)。起初,我以为他们可能会阻止 scrapy,但是当我 运行 再次在这些域上进行 scrapy 时,我得到了 200 的状态。在我使用 urllib 进行第二次检查之前,我想我会在这里问一下如果有人以前经历过或有任何建议。
请求未收到响应有几个原因,
1)DNS 未及时找到,即未解析(增加 DNS_TIMEOUT
)
2)服务器需要一段时间才能响应(增加DOWNLOAD_TIMEOUT
)
3)如果您正在检查大于 1Gb 的大文件(增加 DOWNLOAD_MAXSIZE
)
4)您这边的 Internet 连接问题(DNS 已解决,但之后您失去了连接)
5)网络服务器暂时宕机