如何使用 python spider 下载 doc 文件

How to download doc file using python spider

我想在网站上下载 doc 文件并抛出 python 蜘蛛。我有文件url,这意味着当我登录后在浏览器中输入url时,文件会自动下载。如果我没有登录,它会 return 一个 404 错误。我只知道urllib.urlretrieve(url, 'path/filename')可以下载,但我不知道如何使用urlretrieve来模拟登录状态。或者还有其他下载方式吗?请帮助我,谢谢。

也许你可以试试grab框架(其他人也可以这样做,这只是一个例子),很容易填写输入并提交:

from grab import Grab
import logging

logging.basicConfig(level=logging.DEBUG)
g = Grab()
g.go('https://github.com/login')
g.set_input('login', '***')
g.set_input('password', '***')
g.submit()

然后您可以下载您的文档文件。