从受密码保护的网站抓取 PDF

Scraping PDF's from a password protected website

我在技术支持部门工作,目前必须手动更新我们的产品手册,方法是定期检查它是否有更新,以及它是否替换了我们网络上保存的当前手册。

我想知道是否可以构建一个小程序来快速下载供应商网站上的所有文件,并让它们自动下载并分类到这些产品的给定文件夹中,替换该文件中的当前 PDF .我还必须注意,该网站受密码保护并分类到文件夹中。

Python可以吗?我认为我可以 运行 每周一次或自动更新我们的手册的小程序会非常有用(和学习经验)。

抱歉,如果我没有很好地解释需求,任何问题都可以告诉我。

您可以使用 selenium 实现浏览器自动化。这可以插入密码(尽管你是机器人的东西可能会阻止你),然后你可以通过设置默认下载位置并单击下载按钮来下载 pdf 文件。这将使浏览器将文件下载到默认下载位置。

当然有可能。正如另一个答案所暗示的那样,您将希望使用 Requests(处理 HTTP 请求)或 Selenium(自动浏览器 activity)之类的库来浏览登录。

您需要对给定页面上的链接进行排序,理想情况下可以使用 beautifulsoup(一个 HTML 解析器),但可以使用 selenium(自动浏览器 activity)。你需要检查像请求(处理 HTTP 请求)这样的库来下载 pdf,OS 模块用于将文件夹分类到特定文件夹并替换文件。

我强烈建议您仔细考虑这些步骤,但我希望这能让您对需要学习的库有所了解。最具挑战性的学习是使用selenium,所以如果你能使用requests来做登录就更好了。

如果您对 python 请求有了基本的了解,OS 模块和 beautifulsoup 库就不难掌握了。