使用 Python 请求保存来自 URL 的图像 - URL 类型错误
Saving Image from URL using Python Requests - URL type error
使用以下代码:
with open('newim','wb') as f:
f.write(requests.get(repr(url)))
其中 url 是:
url = ''
我收到以下错误:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:\Python33\lib\site-packages\requests\api.py", line 69, in get
return request('get', url, params=params, **kwargs)
File "C:\Python33\lib\site-packages\requests\api.py", line 50, in request
response = session.request(method=method, url=url, **kwargs)
File "C:\Python33\lib\site-packages\requests\sessions.py", line 465, in request
resp = self.send(prep, **send_kwargs)
File "C:\Python33\lib\site-packages\requests\sessions.py", line 567, in send
adapter = self.get_adapter(url=request.url)
File "C:\Python33\lib\site-packages\requests\sessions.py", line 641, in get_adapter
raise InvalidSchema("No connection adapters were found for '%s'" % url)
我看过其他帖子,乍一看,似乎是一个类似的问题,但我没有任何运气,只是添加 'https://' 或类似的东西......我真的想避免必须在 webdriver+Autoit 或其他软件中执行此操作,因为我必须对数千张图像进行类似的练习。
这是一张以 base64 编码的图像。引用下面的 URL:"base64 equals to text (string) representation of the image itself"。
阅读此内容以获得详细说明:
http://www.stoimen.com/blog/2009/04/23/when-you-should-use-base64-for-images/
为了使用它们,您必须实现一个 base64 解码器。幸运的是,SO 已经为您提供了如何操作的答案:
Python base64 data decode
您对嵌入图像概念的理解似乎有问题。您发布的 url
实际上是您的浏览器 returns 当您 select 'View Image' 或 'Copy Image Location'(或类似的东西,取决于浏览器)来自上下文菜单,正式称为 data URI.
它是 not 指向图像的 http url,您可以 not 使用它从中检索实际图像任何服务器:这正是 requests
在错误消息中指出的内容。
那么,我们如何得到这些图像?
以下脚本将处理此任务:
import requests
from lxml import html
import binascii as ba
i = 0
url="<Page URL goes here>" #Ex: http://server/dir/images.html
page = requests.get(url)
struct = html.fromstring(page.text)
images = struct.xpath('//img/@src')
for img in images:
i += 1
ext = img.partition('data:image/')[2].split(';')[0]
with open('newim'+str(i)+'.'+ext,'wb') as f:
f.write(ba.a2b_base64(img.partition('base64,')[2]))
print("Done")
至 运行 您需要安装 requests
,lxml library which can be found here。
以下是脚本功能的简短描述:
首先它从服务器请求url
,在它得到服务器的响应后,它把它存储在一个响应对象 (page
) .
然后它利用lxml中的html.fromstring()
将page
的"textified"内容转换为树结构,可以通过使用 XPath 语法的命令,例如:images = struct.xpath('//img/@src')
。
结果是 list
,其中包含页面中每个图像的 src
属性的内容。在这种情况下(嵌入图像)这些是数据 URI。
然后,对于列表中的每个图像,它首先获取图像类型(将用作 newim
的扩展),使用 partition()
和 split()
和将其存储在 ext
中。然后它将 base64 编码数据转换为二进制(使用 binascii 模块中的 a2b_base64()
)并将输出写入文件。
作为一个小演示,将此 html
代码(例如 images.html)保存在您的服务器
中的某处
<h1>Images</h1>
<img src="" />
<br />
<img src=""></img>
<br />
<img src=""/>
并在脚本中指向它:requests.get("http://yourserver/somedir/images.html")
.
当您 运行 脚本时,您将获得以下 3 张图像:
, , ,分别命名为newim1.png
、newim2.png
和newim3.jpg
。
请注意,此脚本(当前形式)将仅处理嵌入图像。如果你也想处理普通的链接图片,那么你必须相应地修改它(但这并不难)。
使用以下代码:
with open('newim','wb') as f:
f.write(requests.get(repr(url)))
其中 url 是:
url = ''
我收到以下错误:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:\Python33\lib\site-packages\requests\api.py", line 69, in get
return request('get', url, params=params, **kwargs)
File "C:\Python33\lib\site-packages\requests\api.py", line 50, in request
response = session.request(method=method, url=url, **kwargs)
File "C:\Python33\lib\site-packages\requests\sessions.py", line 465, in request
resp = self.send(prep, **send_kwargs)
File "C:\Python33\lib\site-packages\requests\sessions.py", line 567, in send
adapter = self.get_adapter(url=request.url)
File "C:\Python33\lib\site-packages\requests\sessions.py", line 641, in get_adapter
raise InvalidSchema("No connection adapters were found for '%s'" % url)
我看过其他帖子,乍一看,似乎是一个类似的问题,但我没有任何运气,只是添加 'https://' 或类似的东西......我真的想避免必须在 webdriver+Autoit 或其他软件中执行此操作,因为我必须对数千张图像进行类似的练习。
这是一张以 base64 编码的图像。引用下面的 URL:"base64 equals to text (string) representation of the image itself"。
阅读此内容以获得详细说明: http://www.stoimen.com/blog/2009/04/23/when-you-should-use-base64-for-images/
为了使用它们,您必须实现一个 base64 解码器。幸运的是,SO 已经为您提供了如何操作的答案:
Python base64 data decode
您对嵌入图像概念的理解似乎有问题。您发布的 url
实际上是您的浏览器 returns 当您 select 'View Image' 或 'Copy Image Location'(或类似的东西,取决于浏览器)来自上下文菜单,正式称为 data URI.
它是 not 指向图像的 http url,您可以 not 使用它从中检索实际图像任何服务器:这正是 requests
在错误消息中指出的内容。
那么,我们如何得到这些图像? 以下脚本将处理此任务:
import requests
from lxml import html
import binascii as ba
i = 0
url="<Page URL goes here>" #Ex: http://server/dir/images.html
page = requests.get(url)
struct = html.fromstring(page.text)
images = struct.xpath('//img/@src')
for img in images:
i += 1
ext = img.partition('data:image/')[2].split(';')[0]
with open('newim'+str(i)+'.'+ext,'wb') as f:
f.write(ba.a2b_base64(img.partition('base64,')[2]))
print("Done")
至 运行 您需要安装 requests
,lxml library which can be found here。
以下是脚本功能的简短描述:
首先它从服务器请求url
,在它得到服务器的响应后,它把它存储在一个响应对象 (page
) .
然后它利用lxml中的html.fromstring()
将page
的"textified"内容转换为树结构,可以通过使用 XPath 语法的命令,例如:images = struct.xpath('//img/@src')
。
结果是 list
,其中包含页面中每个图像的 src
属性的内容。在这种情况下(嵌入图像)这些是数据 URI。
然后,对于列表中的每个图像,它首先获取图像类型(将用作 newim
的扩展),使用 partition()
和 split()
和将其存储在 ext
中。然后它将 base64 编码数据转换为二进制(使用 binascii 模块中的 a2b_base64()
)并将输出写入文件。
作为一个小演示,将此 html
代码(例如 images.html)保存在您的服务器
<h1>Images</h1>
<img src="" />
<br />
<img src=""></img>
<br />
<img src=""/>
并在脚本中指向它:requests.get("http://yourserver/somedir/images.html")
.
当您 运行 脚本时,您将获得以下 3 张图像:
newim1.png
、newim2.png
和newim3.jpg
。
请注意,此脚本(当前形式)将仅处理嵌入图像。如果你也想处理普通的链接图片,那么你必须相应地修改它(但这并不难)。