如何使用 Python 中的 lxml 从 html 中提取除 css 和 javascript 之外的所有文本？

Question

如何从 html 中提取所有文本，不包括任何 css 和 javascript？

我正在尝试以下代码：

r = requests.get(website)
tree = html.fromstring(r.text)
html_text = tree.xpath('//text()')

但它也会从网站

中检索所有 css 和 javascript 内容

Answer 1

您可以使用drop_tree()方法删除您不感兴趣的元素。

tree = html.fromstring(r.text)

unwanted = tree.xpath('//script|//style')
for u in unwanted:
    u.drop_tree()

html_text = tree.xpath('//text()')

How to extract all text from html excluding css and javascript with lxml in Python?