如何在抓取页面之前等待页面加载?
How to wait for the page to load before scraping it?
我想从网页中提取 HTML:
import urllib2
req = urllib2.Request('https://www.example.com')
response = urllib2.urlopen(req)
fullhtml = response.read()
我试过 "ulrllib2" 但由于页面是动态构建的,HTML 内容是空的。
有没有办法等待 javascript 加载?
看看这个 http://phantomjs.org/。大多数网站都是基于 javascript 的,php 或 python 无法执行它们。我认为这个图书馆将是您能得到的最好的图书馆。
我想从网页中提取 HTML:
import urllib2
req = urllib2.Request('https://www.example.com')
response = urllib2.urlopen(req)
fullhtml = response.read()
我试过 "ulrllib2" 但由于页面是动态构建的,HTML 内容是空的。
有没有办法等待 javascript 加载?
看看这个 http://phantomjs.org/。大多数网站都是基于 javascript 的,php 或 python 无法执行它们。我认为这个图书馆将是您能得到的最好的图书馆。