WebCopy 不会完全下载带有表单登录的受密码保护的网站。下载一些页面,但其余 returns 出现 403 禁止错误
WebCopy does not fully download pasword protected website with a form login. Downloads some pages but the rest returns a 403 Forbidden error
我没有太多使用 Cyotek WebCopy 的经验,但我确实设法启动它 运行 并下载了我网站的部分内容。
我需要下载受表单登录密码保护的内部网站的全部内容(html、js、css、资产)。该网站需要保留其功能,links 应该可以点击,资产可以下载。
我确实拥有网站所有者的凭据和许可。
WebCopy 以两种不同的方式处理受密码保护的站点:
- 运行 扫描,检测表单登录,您可以在其中设置凭据。
- 在 WebCopy 中的浏览器中打开网站并自行输入凭据。
每次我尝试下载该网站时,我都设法从登录页面、和登录后的首页[=获取所有资产45=]。从主页 returns 分支出来的所有其他 link 一个 403 禁止错误。
我尝试过的:
- 使用 WebCopy 表单登录检测并保存凭据
- 从浏览器使用 WebCopy 登录,结果相同
- 按照说明删除 "Use header checking" 选项 here
- 尝试 "follow internal redirects" 和 "follow all redirects"
- 曾尝试使用 HTTrack 获得相似的结果
如果有人知道我可以做些什么来得到这个 运行,我们将不胜感激。我确定爬虫设置不正确,但在搜索解决方案后我找不到更多信息。
登录后首先要检查的 link 是注销 link,需要在 creawler 中设置一个排除检查它的规则。
好的,所以我将保留它以防万一其他人可能会遇到同样的情况。
WebCopy 的默认项目配置(设置登录凭据后)工作正常。
我的问题是成功登录后检查的第一个 link 是 "logout" link -_-
这导致爬虫失去认证,随后一切都返回403。
我没有太多使用 Cyotek WebCopy 的经验,但我确实设法启动它 运行 并下载了我网站的部分内容。
我需要下载受表单登录密码保护的内部网站的全部内容(html、js、css、资产)。该网站需要保留其功能,links 应该可以点击,资产可以下载。
我确实拥有网站所有者的凭据和许可。
WebCopy 以两种不同的方式处理受密码保护的站点:
- 运行 扫描,检测表单登录,您可以在其中设置凭据。
- 在 WebCopy 中的浏览器中打开网站并自行输入凭据。
每次我尝试下载该网站时,我都设法从登录页面、和登录后的首页[=获取所有资产45=]。从主页 returns 分支出来的所有其他 link 一个 403 禁止错误。
我尝试过的:
- 使用 WebCopy 表单登录检测并保存凭据
- 从浏览器使用 WebCopy 登录,结果相同
- 按照说明删除 "Use header checking" 选项 here
- 尝试 "follow internal redirects" 和 "follow all redirects"
- 曾尝试使用 HTTrack 获得相似的结果
如果有人知道我可以做些什么来得到这个 运行,我们将不胜感激。我确定爬虫设置不正确,但在搜索解决方案后我找不到更多信息。
登录后首先要检查的 link 是注销 link,需要在 creawler 中设置一个排除检查它的规则。
好的,所以我将保留它以防万一其他人可能会遇到同样的情况。
WebCopy 的默认项目配置(设置登录凭据后)工作正常。
我的问题是成功登录后检查的第一个 link 是 "logout" link -_-
这导致爬虫失去认证,随后一切都返回403。