urllib2 没有从网站提取正确的数据 Python 2.7
urllib2 is not pulling in the right data from a website Python 2.7
我正在尝试查看是否可以使用以下代码提取数据。出于某种原因,beautifulsoup 打印输出不包含我看到的数据。我想知道我哪里出错了。我一直在尝试不同类型的 headers,这是我认为我的问题所在,但我可能错了。例如,当我在浏览器上检查页面时,我无法找到以下路径:<div class="textbold font-medium ng-binding">,000</div>
import urllib2
from bs4 import BeautifulSoup
url='https://www.prosper.com/listings#/detail/4964721'
hdr = {'Accept': 'text/html,application/xhtml+xml,*/*',"user-agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36"}
req=urllib2.Request(url,headers=hdr)
html = urllib2.urlopen(req)
soup=BeautifulSoup(html,"lxml")
print soup
url 回复必须这样读
html = urllib2.urlopen(req).read()
根据您的示例,您似乎正在寻找呈现的 html。
在您的情况下,向
发出了 ajax 请求
对此 ajax 请求的响应是一个 json,它会呈现到 UI。
我正在尝试查看是否可以使用以下代码提取数据。出于某种原因,beautifulsoup 打印输出不包含我看到的数据。我想知道我哪里出错了。我一直在尝试不同类型的 headers,这是我认为我的问题所在,但我可能错了。例如,当我在浏览器上检查页面时,我无法找到以下路径:<div class="textbold font-medium ng-binding">,000</div>
import urllib2
from bs4 import BeautifulSoup
url='https://www.prosper.com/listings#/detail/4964721'
hdr = {'Accept': 'text/html,application/xhtml+xml,*/*',"user-agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36"}
req=urllib2.Request(url,headers=hdr)
html = urllib2.urlopen(req)
soup=BeautifulSoup(html,"lxml")
print soup
url 回复必须这样读
html = urllib2.urlopen(req).read()
根据您的示例,您似乎正在寻找呈现的 html。
在您的情况下,向
发出了 ajax 请求对此 ajax 请求的响应是一个 json,它会呈现到 UI。