从 pandas 列解码 HTML

Decode HTML from pandas column

我有一个数据框,其中一列是西班牙语 fos US Dolares 中的货币名称,即

Dólares

但它是在 HTML 上编码的,所以我实际上读到了“ó”,但我找不到任何方法来对整个专栏进行解码。这是一个问题,因为我之后需要导出到 .csv,这会造成麻烦。

我尝试使用不同的 encoding/decoding 库,例如 beautifulsoup、HTMLParser 和其他几个库。

知道可能是什么问题吗?

我怀疑您看到的是数据库中实际存在的内容:"Dólares"

您可以按如下方式转换字符串:

from html2text import unescape

如果你想去掉重音:

unescape("Dólares")

Out[29]'Dolares'

或者如果你想保留口音:

unescape("Dólares", True)

Out[30]: 'Dólares'

要在保持重音的同时解码整列:

df.Currency = df.Currency.apply(unescape, unicode_snob=True)