从 pandas 列解码 HTML
Decode HTML from pandas column
我有一个数据框,其中一列是西班牙语 fos US Dolares 中的货币名称,即
Dólares
但它是在 HTML 上编码的,所以我实际上读到了“ó”,但我找不到任何方法来对整个专栏进行解码。这是一个问题,因为我之后需要导出到 .csv,这会造成麻烦。
我尝试使用不同的 encoding/decoding 库,例如 beautifulsoup、HTMLParser 和其他几个库。
知道可能是什么问题吗?
我怀疑您看到的是数据库中实际存在的内容:"Dólares"
您可以按如下方式转换字符串:
from html2text import unescape
如果你想去掉重音:
unescape("Dólares")
Out[29]'Dolares'
或者如果你想保留口音:
unescape("Dólares", True)
Out[30]: 'Dólares'
要在保持重音的同时解码整列:
df.Currency = df.Currency.apply(unescape, unicode_snob=True)
我有一个数据框,其中一列是西班牙语 fos US Dolares 中的货币名称,即
Dólares
但它是在 HTML 上编码的,所以我实际上读到了“ó”,但我找不到任何方法来对整个专栏进行解码。这是一个问题,因为我之后需要导出到 .csv,这会造成麻烦。
我尝试使用不同的 encoding/decoding 库,例如 beautifulsoup、HTMLParser 和其他几个库。
知道可能是什么问题吗?
我怀疑您看到的是数据库中实际存在的内容:"Dólares"
您可以按如下方式转换字符串:
from html2text import unescape
如果你想去掉重音:
unescape("Dólares")
Out[29]'Dolares'
或者如果你想保留口音:
unescape("Dólares", True)
Out[30]: 'Dólares'
要在保持重音的同时解码整列:
df.Currency = df.Currency.apply(unescape, unicode_snob=True)