如何使用 Python 中的 lxml 从 html 中提取除 css 和 javascript 之外的所有文本?
How to extract all text from html excluding css and javascript with lxml in Python?
如何从 html 中提取所有文本,不包括任何 css 和 javascript?
我正在尝试以下代码:
r = requests.get(website)
tree = html.fromstring(r.text)
html_text = tree.xpath('//text()')
但它也会从网站
中检索所有 css 和 javascript 内容
您可以使用drop_tree()
方法删除您不感兴趣的元素。
tree = html.fromstring(r.text)
unwanted = tree.xpath('//script|//style')
for u in unwanted:
u.drop_tree()
html_text = tree.xpath('//text()')
如何从 html 中提取所有文本,不包括任何 css 和 javascript?
我正在尝试以下代码:
r = requests.get(website)
tree = html.fromstring(r.text)
html_text = tree.xpath('//text()')
但它也会从网站
中检索所有 css 和 javascript 内容您可以使用drop_tree()
方法删除您不感兴趣的元素。
tree = html.fromstring(r.text)
unwanted = tree.xpath('//script|//style')
for u in unwanted:
u.drop_tree()
html_text = tree.xpath('//text()')