从请求解析中排除 span-html
Exclude span from parsing with requests-html
我需要有关使用 Python 和 requests-html 库解析网页的帮助。这里是我要分析的<div>
:
<div class="answer"><span class="marker">А</span>Te<b>x</b>t</div>
呈现为:
Text
我需要得到 Te<b>x</b>t
作为解析的结果,没有 <div>
和 <span>
但有 <b>
标签。
使用 element
作为请求-html 对象,这就是我得到的。
element.html:
<div class="answer"><span class="marker">А</span>Te<b>x</b>t</div>
element.text:
ATe\nx\nt
element.full_text:
AText
你能告诉我如何去掉 <span>
但仍然在解析结果中得到 <b>
标签吗?
不要过于复杂。
如何进行一些简单的字符串处理并获取两个边界之间的字符串:
- 使用
element.html
- 收盘后拿走所有东西
</span>
- 收盘前拿走所有东西
</div>
像这样
myHtml = '<div class="answer"><span class="marker">А</span>Te<b>x</b>t</div>'
myAnswer = myHtml.split("</span>")[1]
myAnswer = myAnswer.split("</div>")[0]
print(myAnswer)
输出:
Te<b>x</b>t
似乎适用于您提供的样本。如果您有更复杂的要求,请告诉我们,我相信有人可以进一步适应。
我需要有关使用 Python 和 requests-html 库解析网页的帮助。这里是我要分析的<div>
:
<div class="answer"><span class="marker">А</span>Te<b>x</b>t</div>
呈现为:
Text
我需要得到 Te<b>x</b>t
作为解析的结果,没有 <div>
和 <span>
但有 <b>
标签。
使用 element
作为请求-html 对象,这就是我得到的。
element.html:
<div class="answer"><span class="marker">А</span>Te<b>x</b>t</div>
element.text:
ATe\nx\nt
element.full_text:
AText
你能告诉我如何去掉 <span>
但仍然在解析结果中得到 <b>
标签吗?
不要过于复杂。
如何进行一些简单的字符串处理并获取两个边界之间的字符串:
- 使用
element.html
- 收盘后拿走所有东西
</span>
- 收盘前拿走所有东西
</div>
像这样
myHtml = '<div class="answer"><span class="marker">А</span>Te<b>x</b>t</div>'
myAnswer = myHtml.split("</span>")[1]
myAnswer = myAnswer.split("</div>")[0]
print(myAnswer)
输出:
Te<b>x</b>t
似乎适用于您提供的样本。如果您有更复杂的要求,请告诉我们,我相信有人可以进一步适应。