使用代理进行抓取 - 如何判断代理已死与网络阻止您?
Using proxies for scraping - how to tell a proxy is dead vs web blocking you?
我经常刮擦,但到目前为止,我正在使用 VPN 来刮擦。我想开始使用代理,但我遇到的问题是 运行,尤其是免费代理,免费代理非常不可靠。
如何判断网页问题与代理问题相比?有超时、连接错误等异常,但这些异常在代理坏时以及网页有问题时都会发生。
所以换句话说,与 URL 我想抓取并且我应该停止尝试并跳过它时出现问题相比,我如何知道我是否需要轮换死代理?
很难区分已关闭的网站和无法正常运行的代理,因为您可能会遇到相同的 HTTP 错误。
我的建议是创建一个代理检查器:一个简单的工具,它将遍历您的代理列表,连接到一个并访问您控制的网站(想想一个简单的 Express Web 服务器,只有一个端点)。代理检查器将 运行 每 30 秒。
通过这种方式,您可以保证网站永远不会宕机(您不会自己屏蔽),如果出现错误,那肯定是代理错误。
一旦出现错误,您就从列表中删除代理(并在它重新联机时添加它)。
我经常刮擦,但到目前为止,我正在使用 VPN 来刮擦。我想开始使用代理,但我遇到的问题是 运行,尤其是免费代理,免费代理非常不可靠。
如何判断网页问题与代理问题相比?有超时、连接错误等异常,但这些异常在代理坏时以及网页有问题时都会发生。
所以换句话说,与 URL 我想抓取并且我应该停止尝试并跳过它时出现问题相比,我如何知道我是否需要轮换死代理?
很难区分已关闭的网站和无法正常运行的代理,因为您可能会遇到相同的 HTTP 错误。
我的建议是创建一个代理检查器:一个简单的工具,它将遍历您的代理列表,连接到一个并访问您控制的网站(想想一个简单的 Express Web 服务器,只有一个端点)。代理检查器将 运行 每 30 秒。
通过这种方式,您可以保证网站永远不会宕机(您不会自己屏蔽),如果出现错误,那肯定是代理错误。
一旦出现错误,您就从列表中删除代理(并在它重新联机时添加它)。