Scrapy Access Denied爬取网站头部

Question

我想抓取一个网站，但出现下一个错误：

'<head>\n<title>Access Denied</title>\n</head>'

我只是在控制台中尝试：

scrapy shell https://www.zara.com/es/en/
response.css("head").get()

我做错了什么？与User-Agent有关吗？网站有没有反爬的方法？如何抓取这个网站？

Answer 1

在settings.py中设置USER_AGENT = 'zara (+http://www.yourdomain.com)'。解决问题。如果您愿意，也可以放置自己的用户代理。

Scrapy Access Denied crawling the head of a website