Python BeautifulSoup4 get_text() 或正则表达式
Python BeautifulSoup4 get_text() or regex
我正在使用 Python 2.7.5 和 BeautifulSoup4。
我需要从 html 标签中剪切文本。
我在命令后输出 <a class="username offline popupctrl" href="member.php?20938-NarutoO" title="NarutoO je offline"><strong><font color="#5566CC">NarutoO</font></strong></a>
:
print post_owner[0]
我只需要昵称:NarutoO
并且不想使用 get_text()
.
我的代码:
post_owner = soup.findAll(attrs={'class':'username offline popupctrl'})
for row1 in post_owner:
text = ''.join(row1.findAll(text=True))
data1 = text.strip()
text_file.write("USER NAME\n")
member_count = member_count + 1
data1 = data1.encode('utf-8')
text_file.write(str(data1) + '\n')
我在其他地方使用了一些解决方案 posts.If 我理解正确,findAll
给了我所有匹配项的列表。我的代码将连续打印所有匹配项。我只需要访问 post_owner
列表中的元素并在没有 html 标签的情况下使用它们。例如:
print post_owner[0]
print post_owner[4]
print post_owner[2]
.
.
.
抱歉解释不好,我真的很累:o
使用soup.select
和get()
[i.get('title') for i in soup.select('.username')]
我正在使用 Python 2.7.5 和 BeautifulSoup4。
我需要从 html 标签中剪切文本。
我在命令后输出 <a class="username offline popupctrl" href="member.php?20938-NarutoO" title="NarutoO je offline"><strong><font color="#5566CC">NarutoO</font></strong></a>
:
print post_owner[0]
我只需要昵称:NarutoO
并且不想使用 get_text()
.
我的代码:
post_owner = soup.findAll(attrs={'class':'username offline popupctrl'})
for row1 in post_owner:
text = ''.join(row1.findAll(text=True))
data1 = text.strip()
text_file.write("USER NAME\n")
member_count = member_count + 1
data1 = data1.encode('utf-8')
text_file.write(str(data1) + '\n')
我在其他地方使用了一些解决方案 posts.If 我理解正确,findAll
给了我所有匹配项的列表。我的代码将连续打印所有匹配项。我只需要访问 post_owner
列表中的元素并在没有 html 标签的情况下使用它们。例如:
print post_owner[0]
print post_owner[4]
print post_owner[2]
.
.
.
抱歉解释不好,我真的很累:o
使用soup.select
和get()
[i.get('title') for i in soup.select('.username')]