如何使用 Python 从网站上抓取文本
How to scrape text from websites using Python
我在 python 中编写了一个代码,使用 'requests' 和 'beautifulSoup' api 从 return 的前 100 个站点 google 抓取文本数据].
好吧,它在大多数网站上运行良好,但它会在那些稍后响应或根本不响应的网站上出错
我收到这个错误
提高 MaxRetryError(_pool, url, error or ResponseError(cause))
requests.packages.urllib3.exceptions.MaxRetryError: HTTPConnectionPool(host='www.lfpress.com', port=80): 最大重试次数超过 url: /2015/11/06/fair-with-a- flare-samosas-made-easy(由 NewConnectionError(':无法建立新连接:[Errno 11001] getaddrinfo 失败',))
我是否应该更改请求中编写的代码 API?或者我需要使用一些代理?我怎样才能离开该站点并转到下一个站点?由于错误正在停止我的执行。
在您的调用周围添加一个 "try except" 块以捕获该异常,如果您不关心以下错误则继续:
import requests
try:
requests.get('http://whosebug.com/')
except requests.packages.urllib3.exceptions.MaxRetryError as e:
print repr(e)
我在 python 中编写了一个代码,使用 'requests' 和 'beautifulSoup' api 从 return 的前 100 个站点 google 抓取文本数据]. 好吧,它在大多数网站上运行良好,但它会在那些稍后响应或根本不响应的网站上出错 我收到这个错误
提高 MaxRetryError(_pool, url, error or ResponseError(cause)) requests.packages.urllib3.exceptions.MaxRetryError: HTTPConnectionPool(host='www.lfpress.com', port=80): 最大重试次数超过 url: /2015/11/06/fair-with-a- flare-samosas-made-easy(由 NewConnectionError(':无法建立新连接:[Errno 11001] getaddrinfo 失败',))
我是否应该更改请求中编写的代码 API?或者我需要使用一些代理?我怎样才能离开该站点并转到下一个站点?由于错误正在停止我的执行。
在您的调用周围添加一个 "try except" 块以捕获该异常,如果您不关心以下错误则继续:
import requests
try:
requests.get('http://whosebug.com/')
except requests.packages.urllib3.exceptions.MaxRetryError as e:
print repr(e)