抓取网页

Question

我有一些分页是动态生成的，当我使用 Chrome 或 Firefox 的检查工具时，URL 是可见的，但是当我可视化源代码时，是 href="#"代码或当我通过 scrapy 使用 xpath 时。

关于这个问题有什么提示吗？

网页：http://www.pagesjaunes.fr/annuaire/paris-75/restaurants link: "suivant" 在页脚处，class="link_pagination next"

Answer 1

我认为最快捷的方法是通过简单地将参数页面添加到请求并遍历所有页面（如果这就是你想要的）来生成 link，在这种情况下，例如:

http://www.pagesjaunes.fr/annuaire/paris-75/restaurants?page=2
http://www.pagesjaunes.fr/annuaire/paris-75/restaurants?page=3
...
...
http://www.pagesjaunes.fr/annuaire/paris-75/restaurants?page=644
http://www.pagesjaunes.fr/annuaire/paris-75/restaurants?page=645

祝你好运！ ;)

抓取网页

Scraping Web Pages

python

web-crawler

scrapy

web-scraping