如何使用 Python 从网站上抓取文本

Question

我在 python 中编写了一个代码，使用 'requests' 和 'beautifulSoup' api 从 return 的前 100 个站点 google 抓取文本数据]. 好吧，它在大多数网站上运行良好，但它会在那些稍后响应或根本不响应的网站上出错我收到这个错误

提高 MaxRetryError(_pool, url, error or ResponseError(cause)) requests.packages.urllib3.exceptions.MaxRetryError: HTTPConnectionPool(host='www.lfpress.com', port=80): 最大重试次数超过 url: /2015/11/06/fair-with-a- flare-samosas-made-easy（由 NewConnectionError（'：无法建立新连接：[Errno 11001] getaddrinfo 失败'，））

我是否应该更改请求中编写的代码 API？或者我需要使用一些代理？我怎样才能离开该站点并转到下一个站点？由于错误正在停止我的执行。

Answer 1

在您的调用周围添加一个 "try except" 块以捕获该异常，如果您不关心以下错误则继续：

import requests
try:
    requests.get('http://whosebug.com/')
except requests.packages.urllib3.exceptions.MaxRetryError as e:
    print repr(e)

如何使用 Python 从网站上抓取文本

How to scrape text from websites using Python

python

beautifulsoup

text-mining

web-scraping

python-requests