Python 美丽的汤刮具体数字

Question

一个更简单的问题...

如何使用下面的代码抓取 HTML 标签，以便结果只是一个数字？

我正在使用不同的网页。

import pickle
import math
import urllib2
from lxml import etree
from bs4 import BeautifulSoup
from urllib import urlopen

favPrevGMInfoUrl = 'http://www.cbssports.com/nfl/gametracker/boxscore/NFL_20140914_NE@MIN'
favPrevGMInfoHtml = urlopen(favPrevGMInfoUrl).read()
favPrevGMInfoSoup = BeautifulSoup(favPrevGMInfoHtml)
favPrevGMInfo = favPrevGMInfoSoup.find_all("td", { "id" : "away-safeties" })

print favPrevGMInfo

Answer 1

此站点未在原始 url 的获取请求中返回源，而是通过 ajax json 调用 - http://www.nfl.com/feeds-rs/videos/byGameCenter/2014091404.json?gameState=POST&maxResult=0&random=1434035648930.

您需要从此调用中获取数据。请使用“网络”选项卡分析所有发出的请求。

Answer 2

将您最后的打印语句更改为 -

print favPrevGMInfo[0].text

或将上面的行更改为 -

favPrevGMInfo = favPrevGMInfoSoup.find("td", { "id" : "away-safeties" }).text

Python 美丽的汤刮具体数字

Python Beautiful Soup Scraping Specific Numbers

python

beautifulsoup

web-scraping

python-2.7