如何处理 Python 中包含 space 的链接
How to handle links containing space between them in Python
我正在尝试从网页中提取链接,然后在我的网络浏览器中打开它们。我的 Python 程序能够成功提取链接,但有些链接之间有空格,无法使用 request module
打开。
例如example.com/A, B C
它不会使用请求模块打开。但是如果我把它转换成 example.com/A,%20B%20C
它就会打开。 python 中是否有一种简单的方法可以用 %20
填充空格?
`http://example.com/A, B C` ---> `http://example.com/A,%20B%20C`
我想把所有中间有空格的链接都转换成上面的格式。
使用url编码:
import urllib
urllib.urlencode(yourstring)
urlencode
其实是取字典,例如:
>>> urllib.urlencode({'test':'param'})
'test=param'`
你实际上需要这样的东西:
import urllib
import urlparse
def url_fix(s, charset='utf-8'):
if isinstance(s, unicode):
s = s.encode(charset, 'ignore')
scheme, netloc, path, qs, anchor = urlparse.urlsplit(s)
path = urllib.quote(path, '/%')
qs = urllib.quote_plus(qs, ':&=')
return urlparse.urlunsplit((scheme, netloc, path, qs, anchor))
然后:
>>>url_fix('http://example.com/A, B C')
'http://example.com/A%2C%20B%20C'
取自How can I normalize a URL in python
Python @rofls 答案的 3 个工作解决方案。
import urllib.parse as urlparse
def url_fix(s):
scheme, netloc, path, qs, anchor = urlparse.urlsplit(s)
path = urlparse.quote(path, '/%')
qs = urlparse.quote_plus(qs, ':&=')
return urlparse.urlunsplit((scheme, netloc, path, qs, anchor))
我正在尝试从网页中提取链接,然后在我的网络浏览器中打开它们。我的 Python 程序能够成功提取链接,但有些链接之间有空格,无法使用 request module
打开。
例如example.com/A, B C
它不会使用请求模块打开。但是如果我把它转换成 example.com/A,%20B%20C
它就会打开。 python 中是否有一种简单的方法可以用 %20
填充空格?
`http://example.com/A, B C` ---> `http://example.com/A,%20B%20C`
我想把所有中间有空格的链接都转换成上面的格式。
使用url编码:
import urllib
urllib.urlencode(yourstring)
urlencode
其实是取字典,例如:
>>> urllib.urlencode({'test':'param'})
'test=param'`
你实际上需要这样的东西:
import urllib
import urlparse
def url_fix(s, charset='utf-8'):
if isinstance(s, unicode):
s = s.encode(charset, 'ignore')
scheme, netloc, path, qs, anchor = urlparse.urlsplit(s)
path = urllib.quote(path, '/%')
qs = urllib.quote_plus(qs, ':&=')
return urlparse.urlunsplit((scheme, netloc, path, qs, anchor))
然后:
>>>url_fix('http://example.com/A, B C')
'http://example.com/A%2C%20B%20C'
取自How can I normalize a URL in python
Python @rofls 答案的 3 个工作解决方案。
import urllib.parse as urlparse
def url_fix(s):
scheme, netloc, path, qs, anchor = urlparse.urlsplit(s)
path = urlparse.quote(path, '/%')
qs = urlparse.quote_plus(qs, ':&=')
return urlparse.urlunsplit((scheme, netloc, path, qs, anchor))