如何在Scrapy中模拟XHR请求动态加载网页？

How to simulate XHR request in Scrapy for dynamically loading web pages?

python
ajax
web-crawler
scrapy
scrapy-spider

我正在尝试抓取 olx.in 站点 http://www.olx.in/newdelhi/bmw/，我已将此 URL 设置为 start_url。

现在转到下一页，因为它不正常 HTML 但它是动态的，所以在网络选项卡中我看到下一个按钮使用 POST 方法创建了一个 XHR 请求。现在我必须在请求方法中模拟它（我猜......）但我无法弄清楚它的参数是什么。

我是 python 和网络抓取的新手，很抱歉，如果它过于笼统，我们将不胜感激。

您应该看看 FormRequest，它使您能够通过 HTTP POST 发送数据。正如您所看到的，下一个按钮使用一些表单数据创建了对 http://www.olx.in/ajax/newdelhi/search/list/ 的请求。只需使用当前 Response 对象中的所需值填充 formdata 参数。当您尝试构建分页时，您应该检查 this page 如何正确地做到这一点。

如何在Scrapy中模拟XHR请求动态加载网页？

How to simulate XHR request in Scrapy for dynamically loading web pages?

python

ajax

web-crawler

scrapy

scrapy-spider