如何在抓取页面之前等待页面加载？

Question

我想从网页中提取 HTML：

import urllib2
req = urllib2.Request('https://www.example.com')
response = urllib2.urlopen(req)
fullhtml = response.read()

我试过 "ulrllib2" 但由于页面是动态构建的，HTML 内容是空的。

有没有办法等待 javascript 加载？

Answer 1

看看这个 http://phantomjs.org/。大多数网站都是基于 javascript 的，php 或 python 无法执行它们。我认为这个图书馆将是您能得到的最好的图书馆。

How to wait for the page to load before scraping it?