Scray shell URL returns 404 无限滚动

Question

我正在培训如何在命令提示符下使用 scrapy shell，这里是 URL https://shopee.com.my/shop/145423/followers/?__classic__=1

对于 google chrome 开发人员（按 F12）和 Network 部分，我清除了所有内容并浏览了网站并得到了这个 link https://shopee.com.my/shop/145423/followers/?offset=60&limit=20&offset_of_offset=0&_=1610787400133 link 应该 return 一些数据但是当尝试

scrapy shell https://shopee.com.my/shop/145423/followers/?offset=60&limit=20&offset_of_offset=0&_=1610787400133

我收到了 404 作为响应。我认为有一个弹出窗口需要用户点击语言，这就是问题所在这样的弹窗如何处理或跳过？

Answer 1

使用用户代理。您还可以在 command line

中使用用户代理

 headers={'User-Agent': 'Mybot'}
>>> r = scrapy.Request(url, headers=headers)
>>> fetch(r)
2021-01-16 16:53:11 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://shopee.com.my/shop/145423/followers/?offset=60&limit=20&offset_of_offset=0&_=1610787400133&__classic__=1> from <GET https://shopee.com.my/shop/145423/followers/?offset=60&limit=20&offset_of_offset=0&_=1610787400133>
2021-01-16 16:53:11 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://shopee.com.my/shop/145423/followers/?offset=60&limit=20&offset_of_offset=0&_=1610787400133&__classic__=1> (referer: None)
>>> response.status
200
>>>

Scray shell URL returns 404 无限滚动

Scray shell URL returns 404 for endless scroll

python

scrapy