如何轻松解析内容?
How to parse content easily?
我正在学习 Urllib 函数。我写的解析代码没有选择网页上的所有信息。
我已经更改了用户代理 header 因此请求显示为真实用户。一些信息在页面上炫耀,但主要是小字。
import urllib.request
import urllib.parse
import re
print('Webpage content surfer')
try:
url = input('Enter full website address (http://, https://:> ')
headers = {}
headers['User-Agent'] = 'Mozilla/5.0 (x11; Linux i686) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.27 Safari/537.17'
req = urllib.request.Request(url, headers=headers)
resp = urllib.request.urlopen(req)
respdata = resp.read()
except Exception as e:
print('That is not a valid website address\nCheck the web address'
, (e))
content = re.findall(r'<p>(.*?)</p>', str(respdata))
for contents in content:
print(contents)
我没有显示任何错误,但内容没有显示页面上的所有内容。这是因为使用
()
请求段落之间的所有信息吗?
我刚刚针对 http://example.com 测试了你的代码,它似乎显示了 <p> .. </p>
之间的所有内容
您是否遇到了特定的 URL 问题?
我也建议你使用 BeautifulSoup
我正在学习 Urllib 函数。我写的解析代码没有选择网页上的所有信息。
我已经更改了用户代理 header 因此请求显示为真实用户。一些信息在页面上炫耀,但主要是小字。
import urllib.request
import urllib.parse
import re
print('Webpage content surfer')
try:
url = input('Enter full website address (http://, https://:> ')
headers = {}
headers['User-Agent'] = 'Mozilla/5.0 (x11; Linux i686) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.27 Safari/537.17'
req = urllib.request.Request(url, headers=headers)
resp = urllib.request.urlopen(req)
respdata = resp.read()
except Exception as e:
print('That is not a valid website address\nCheck the web address'
, (e))
content = re.findall(r'<p>(.*?)</p>', str(respdata))
for contents in content:
print(contents)
我没有显示任何错误,但内容没有显示页面上的所有内容。这是因为使用
()
请求段落之间的所有信息吗?我刚刚针对 http://example.com 测试了你的代码,它似乎显示了 <p> .. </p>
之间的所有内容
您是否遇到了特定的 URL 问题?
我也建议你使用 BeautifulSoup