从请求解析中排除 span-html

Question

我需要有关使用 Python 和 requests-html 库解析网页的帮助。这里是我要分析的<div>：

<div class="answer"><span class="marker">А</span>Te<b>x</b>t</div>

呈现为：

Text

我需要得到 Te<b>x</b>t 作为解析的结果，没有 <div> 和 <span> 但有 <b> 标签。

使用 element 作为请求-html 对象，这就是我得到的。

element.html:
<div class="answer"><span class="marker">А</span>Te<b>x</b>t</div>

element.text:
ATe\nx\nt

element.full_text:
AText

你能告诉我如何去掉 <span> 但仍然在解析结果中得到 <b> 标签吗？

Answer 1

不要过于复杂。

如何进行一些简单的字符串处理并获取两个边界之间的字符串：

使用element.html
收盘后拿走所有东西</span>
收盘前拿走所有东西</div>

像这样

myHtml = '<div class="answer"><span class="marker">А</span>Te<b>x</b>t</div>'

myAnswer = myHtml.split("</span>")[1]
myAnswer = myAnswer.split("</div>")[0]

print(myAnswer)

输出：

Te<b>x</b>t

似乎适用于您提供的样本。如果您有更复杂的要求，请告诉我们，我相信有人可以进一步适应。

从请求解析中排除 span-html

Exclude span from parsing with requests-html

python

parsing

python-requests

python-requests-html