从请求解析中排除 span-html

Exclude span from parsing with requests-html

我需要有关使用 Python 和 requests-html 库解析网页的帮助。这里是我要分析的<div>

<div class="answer"><span class="marker">А</span>Te<b>x</b>t</div>

呈现为:

Text

我需要得到 Te<b>x</b>t 作为解析的结果,没有 <div><span> 但有 <b> 标签。

使用 element 作为请求-html 对象,这就是我得到的。

element.html:
<div class="answer"><span class="marker">А</span>Te<b>x</b>t</div>

element.text:
ATe\nx\nt

element.full_text:
AText

你能告诉我如何去掉 <span> 但仍然在解析结果中得到 <b> 标签吗?

不要过于复杂。

如何进行一些简单的字符串处理并获取两个边界之间的字符串:

  • 使用element.html
  • 收盘后拿走所有东西</span>
  • 收盘前拿走所有东西</div>

像这样

myHtml = '<div class="answer"><span class="marker">А</span>Te<b>x</b>t</div>'

myAnswer = myHtml.split("</span>")[1]
myAnswer = myAnswer.split("</div>")[0]

print(myAnswer)

输出:

Te<b>x</b>t

似乎适用于您提供的样本。如果您有更复杂的要求,请告诉我们,我相信有人可以进一步适应。