如何将数据框列的分类值转换为 sckikit-learn 中的单热编码列?

How to transform categorical values of a dataframe column to a one-hot encoded columns in sckikit-learn?

给定数据框 df 的具有分类值 ['A', 'B','C'] 的列 letters,我想获得数据框中的许多列,其中每一行只有一个非零值对应于原始分类值。

例如来自数据框

letters
A
C
A
C

我想要:

A    B    C
1    0    0
0    0    1 
1    0    0
0    0    1

现在 pandas 这很容易:

dummies = pd.get_dummies(df.letters)
res = pd.concat([df, dummies], axis=1)
df.drop('letters', axis=1, inplace=True)

在 scikit 中可以使用 LabelBinarizer:

from sklearn.preprocessing import LabelBinarizer
cat_col = df["letters"]
encoder = LabelBinarizer()
col_1hot = encoder.fit_transform(cat_col)
col_1hot.toarray()

然而,这只是一个 1-0 矩阵,我已经丢失了对原始分类值的引用。因此,我不能假设第一个 1-hot 列是 A,第二个是 B 等等。 那么如何在 SciKit 中执行 one-hot encoding 来学习获取数据帧呢?

编辑

@Joe Halliwell 建议做一些事情 lb.inverse_transform(onehot) 所以在这个特定情况下我做了

lb = preprocessing.LabelBinarizer()
onehot = lb.fit_transform(df)
res = pd.DataFrame(data=onehot, columns=lb.inverse_transform(onehot).reshape(-1,))

在这种情况下有效,因为行数等于类别。如果我有更多行,这将不再起作用

您不能使用 SciKit Learn 获取 DataFrame。但是,您可以在已安装的 LabelBinarizer 上调用 inverse_transform 方法来检索标签,例如

import pandas as pd
from sklearn import preprocessing

df = pd.DataFrame({"foo": ["A", "C", "B", "A"]})
lb = preprocessing.LabelBinarizer()
onehot = lb.fit_transform(df)
print(lb.inverse_transform(onehot))

因此,为了检索单热编码矩阵中列的标签,您可以通过逆变换运行单位矩阵:

print(lb.inverse_transform(np.identity(onehot.shape[1]))