使用 xpath 提取值会产生一些不需要的字符串

Question

我正在从网页中提取值（网络抓取）。我可以成功获得包含所需值的行，但是，我希望得到值本身。我做对了吗？真的需要额外的条带化步骤吗？

来自lxml.html

的一些方法

title = doc.xpath('//*[@class="tytng"]')
print (lh.tostring(title[0]))

网页代码：

<span class="tytng" style="">06MAGNA&nbsp;(06N)</span>

预期结果：

06MAGNA&#160;(06N)

实际结果：

b'<span class="tytng">06MAGNA&#160;(06N)</span>'

Answer 1

如果我理解你的问题，你可以使用“.text”。例如：

title = driver.find_element_by_xpath('//*[@class="tytng"]')
print(title.text)

extracting value with xpath yields some unwanted strings