使用 python 转义网络后出现“406 不可接受”

'406 Not Acceptable' after scaping web using python

我删除的网站在浏览器上显示 406 不可接受 将我拒之门外。可能我错误地在 phython 代码上一次发送了太多请求。

所以我为每个循环设置了 time.sleep(10) 以使其看起来不像 DDoS 攻击,而且它似乎成功了。

我的问题是:

  1. 在每个请求之间发送多长时间才合理?每个循环休眠 10 秒使我的代码 运行 太慢。

  2. 如何修复浏览器上的 406 Not Acceptable 错误?他们仍然阻止我,只有当我有机会获得我的 ip 地址时,但这不是永久的解决方案。

感谢大家的回答和评论。美好的一天!

任何速率限制错误都取决于您选择抓取/与之交互的网站。我可以设置一个网站,每天只允许您查看一次,然后在您的屏幕上抛出 HTTP 错误。所以要回答你的第一个问题,没有明确的答案。你必须自己测试一下,看看你能达到的最快速度是多少,而不被阻塞。

但是,有一个解决方法。如果您使用代理,那么几乎不可能检测到并阻止请求的执行,因此您不会受到任何 HTTP 错误的影响。 但是,仅仅因为您可以,并不意味着您应该-我是一名程序员,而不是律师。我敢肯定某处有一条规则规定,向页面发送垃圾邮件是非法的,即使它告诉您停止也是如此。

你的第二个问题与编程并不完全相关,但无论如何我都会回答 - 尝试清除你的 cookie 或刷新你的 IP(尝试使用 VPN 等)。除了更改您的 IP 或 cookie 之外,没有更多的方法可以让页面对您进行指纹识别(以阻止您)。