使用 robobrowser 和 beautifulsoup 解析网页
Parsing webpage with robobrowser and beautifulsoup
我是网络抓取的新手,在使用 robobrowser 提交表单后尝试解析网站。我得到了正确的数据(当我这样做时我可以查看它:打印(browser.parsed))但是在解析它时遇到了问题。网页源代码的相关部分如下所示:
<div id="ii">
<tr>
<td scope="row" id="t1a"> ID (ID Number)</a></td>
<td headers="t1a">1234567 </td>
</tr>
<tr>
<td scope="row" id="t1b">Participant Name</td>
<td headers="t1b">JONES, JOHN </td>
</tr>
<tr>
<td scope="row" id="t1c">Sex</td>
<td headers="t1c">MALE </td>
</tr>
<tr>
<td scope="row" id="t1d">Date of Birth</td>
<td headers="t1d">11/25/2016 </td>
</tr>
<tr>
<td scope="row" id="t1e">Race / Ethnicity</a></td>
<td headers="t1e">White </td>
</tr>
如果我这样做
in: browser.select('#t1b")
我得到:
out: [<td id="t1b" scope="row">Inmate Name</td>]
代替琼斯,约翰。
我能够获得相关数据的唯一方法是:
browser.select('tr')
这个 returns 29 个中的每一个的列表,每个 'tr' 我可以将其转换为文本并搜索相关信息。
我也试过创建一个 BeautifulSoup 对象:
x = browser.select('#ii')
soup = BeautifulSoup(x[0].text, "html.parser")
但它丢失了所有 tags/ids,所以我不知道如何在其中搜索。
有没有一种简单的方法让它通过 'tr' 遍历每个元素并获取实际数据而不是标签,以反对重复转换为字符串变量并在其中搜索?
谢谢
获取所有"label" td
元素并获取next td
sibling value收集结果到一个dict中:
from pprint import pprint
from bs4 import BeautifulSoup
data = """
<table>
<tr>
<td scope="row" id="t1a"> ID (ID Number)</a></td>
<td headers="t1a">1234567 </td>
</tr>
<tr>
<td scope="row" id="t1b">Participant Name</td>
<td headers="t1b">JONES, JOHN </td>
</tr>
<tr>
<td scope="row" id="t1c">Sex</td>
<td headers="t1c">MALE </td>
</tr>
<tr>
<td scope="row" id="t1d">Date of Birth</td>
<td headers="t1d">11/25/2016 </td>
</tr>
<tr>
<td scope="row" id="t1e">Race / Ethnicity</a></td>
<td headers="t1e">White </td>
</tr>
</table>
"""
soup = BeautifulSoup(data, 'html5lib')
data = {
label.get_text(strip=True): label.find_next_sibling("td").get_text(strip=True)
for label in soup.select("tr > td[scope=row]")
}
pprint(data)
打印:
{'Date of Birth': '11/25/2016',
'ID (ID Number)': '1234567',
'Participant Name': 'JONES, JOHN',
'Race / Ethnicity': 'White',
'Sex': 'MALE'}
我是网络抓取的新手,在使用 robobrowser 提交表单后尝试解析网站。我得到了正确的数据(当我这样做时我可以查看它:打印(browser.parsed))但是在解析它时遇到了问题。网页源代码的相关部分如下所示:
<div id="ii">
<tr>
<td scope="row" id="t1a"> ID (ID Number)</a></td>
<td headers="t1a">1234567 </td>
</tr>
<tr>
<td scope="row" id="t1b">Participant Name</td>
<td headers="t1b">JONES, JOHN </td>
</tr>
<tr>
<td scope="row" id="t1c">Sex</td>
<td headers="t1c">MALE </td>
</tr>
<tr>
<td scope="row" id="t1d">Date of Birth</td>
<td headers="t1d">11/25/2016 </td>
</tr>
<tr>
<td scope="row" id="t1e">Race / Ethnicity</a></td>
<td headers="t1e">White </td>
</tr>
如果我这样做
in: browser.select('#t1b")
我得到:
out: [<td id="t1b" scope="row">Inmate Name</td>]
代替琼斯,约翰。
我能够获得相关数据的唯一方法是:
browser.select('tr')
这个 returns 29 个中的每一个的列表,每个 'tr' 我可以将其转换为文本并搜索相关信息。
我也试过创建一个 BeautifulSoup 对象:
x = browser.select('#ii')
soup = BeautifulSoup(x[0].text, "html.parser")
但它丢失了所有 tags/ids,所以我不知道如何在其中搜索。
有没有一种简单的方法让它通过 'tr' 遍历每个元素并获取实际数据而不是标签,以反对重复转换为字符串变量并在其中搜索?
谢谢
获取所有"label" td
元素并获取next td
sibling value收集结果到一个dict中:
from pprint import pprint
from bs4 import BeautifulSoup
data = """
<table>
<tr>
<td scope="row" id="t1a"> ID (ID Number)</a></td>
<td headers="t1a">1234567 </td>
</tr>
<tr>
<td scope="row" id="t1b">Participant Name</td>
<td headers="t1b">JONES, JOHN </td>
</tr>
<tr>
<td scope="row" id="t1c">Sex</td>
<td headers="t1c">MALE </td>
</tr>
<tr>
<td scope="row" id="t1d">Date of Birth</td>
<td headers="t1d">11/25/2016 </td>
</tr>
<tr>
<td scope="row" id="t1e">Race / Ethnicity</a></td>
<td headers="t1e">White </td>
</tr>
</table>
"""
soup = BeautifulSoup(data, 'html5lib')
data = {
label.get_text(strip=True): label.find_next_sibling("td").get_text(strip=True)
for label in soup.select("tr > td[scope=row]")
}
pprint(data)
打印:
{'Date of Birth': '11/25/2016',
'ID (ID Number)': '1234567',
'Participant Name': 'JONES, JOHN',
'Race / Ethnicity': 'White',
'Sex': 'MALE'}