使用 Beautifulsoup 获取文本外部标签

Question

我对这一切都很陌生，很难使用 BeautifulSoup.

获取任何标签之外的特定文本

这是我的代码：

from bs4 import BeautifulSoup

soup = BeautifulSoup('''
<li id="SalesRank" style="list-style : none">
    <b>Sellers Rank:</b> 
    #81 in Fun
    (<a href="http://www.google.com">See Top 100</a>)
</li>
''')


theRank = soup.find('li', attrs={'id':'SalesRank'}).find('b', text="Sellers Rank:")
print theRank.find_next_sibling().text.strip()

我正在尝试获取 #81 in Fun

Answer 1

<b> 标记后的全文元素将包含 ( 左括号。

使用 .next_sibling attribute 从给定标签中获取下一个对象：

>>> soup.find('li', attrs={'id':'SalesRank'}).find('b', text="Sellers Rank:")
<b>Sellers Rank:</b>
>>> soup.find('li', attrs={'id':'SalesRank'}).find('b', text="Sellers Rank:").next_sibling
u' \n    #81 in Fun\n    ('

使用 Beautifulsoup 获取文本外部标签

get text oustside tags using Beautifulsoup

python

beautifulsoup