我正在尝试使用 python 收集 BeautifulSoup 的文本
I'm trying to collect the text with BeautifulSoup using python
我想知道如何用漂亮的汤收集欲望数据这里是代码并试图收集文本数据"RoSharon1977"
我正在尝试使用
<div id="twitter" class="editable-item">
<div id="twitter-view">
<ul><li>
<a href="/redir/redirect?url=http%3A%2F%2Ftwitter%2Ecom%2FRoSharon1977&urlhash=QRJD">RoSharon1977</a>
</li></ul>
</div></div>
您必须通过其 id
找到 div
,然后获取下一个 ul
元素,依此类推并继续向下钻取直到到达 a
元素,然后获取它的文本:
from bs4 import BeautifulSoup
html = '''<div id="twitter" class="editable-item">
<div id="twitter-view">
<ul><li>
<a href="/redir/redirect?url=http%3A%2F%2Ftwitter%2Ecom%2FRoSharon1977&urlhash=QRJD">RoSharon1977</a>
</li></ul>
</div></div>'''
soup = BeautifulSoup(html)
print soup.find('div', attrs={'id': 'twitter-view'}).findNext('ul').findNext('li').findNext('a').text
或者根据整个网页的外观,您可以简单地执行以下操作:
soup = BeautifulSoup(html)
print soup.find('a').text
如果有多个 a
元素:
soup = BeautifulSoup(html)
for a in soup.find_all('a'):
print a.text
我想知道如何用漂亮的汤收集欲望数据这里是代码并试图收集文本数据"RoSharon1977"
我正在尝试使用
<div id="twitter" class="editable-item">
<div id="twitter-view">
<ul><li>
<a href="/redir/redirect?url=http%3A%2F%2Ftwitter%2Ecom%2FRoSharon1977&urlhash=QRJD">RoSharon1977</a>
</li></ul>
</div></div>
您必须通过其 id
找到 div
,然后获取下一个 ul
元素,依此类推并继续向下钻取直到到达 a
元素,然后获取它的文本:
from bs4 import BeautifulSoup
html = '''<div id="twitter" class="editable-item">
<div id="twitter-view">
<ul><li>
<a href="/redir/redirect?url=http%3A%2F%2Ftwitter%2Ecom%2FRoSharon1977&urlhash=QRJD">RoSharon1977</a>
</li></ul>
</div></div>'''
soup = BeautifulSoup(html)
print soup.find('div', attrs={'id': 'twitter-view'}).findNext('ul').findNext('li').findNext('a').text
或者根据整个网页的外观,您可以简单地执行以下操作:
soup = BeautifulSoup(html)
print soup.find('a').text
如果有多个 a
元素:
soup = BeautifulSoup(html)
for a in soup.find_all('a'):
print a.text