如何将数据框列的分类值转换为 sckikit-learn 中的单热编码列？

Question

给定数据框 df 的具有分类值 ['A', 'B','C'] 的列 letters，我想获得数据框中的许多列，其中每一行只有一个非零值对应于原始分类值。

例如来自数据框

letters
A
C
A
C

我想要：

A    B    C
1    0    0
0    0    1 
1    0    0
0    0    1

现在 pandas 这很容易：

dummies = pd.get_dummies(df.letters)
res = pd.concat([df, dummies], axis=1)
df.drop('letters', axis=1, inplace=True)

在 scikit 中可以使用 LabelBinarizer:

from sklearn.preprocessing import LabelBinarizer
cat_col = df["letters"]
encoder = LabelBinarizer()
col_1hot = encoder.fit_transform(cat_col)
col_1hot.toarray()

然而，这只是一个 1-0 矩阵，我已经丢失了对原始分类值的引用。因此，我不能假设第一个 1-hot 列是 A，第二个是 B 等等。那么如何在 SciKit 中执行 one-hot encoding 来学习获取数据帧呢？

编辑

@Joe Halliwell 建议做一些事情 lb.inverse_transform(onehot) 所以在这个特定情况下我做了

lb = preprocessing.LabelBinarizer()
onehot = lb.fit_transform(df)
res = pd.DataFrame(data=onehot, columns=lb.inverse_transform(onehot).reshape(-1,))

在这种情况下有效，因为行数等于类别。如果我有更多行，这将不再起作用

Answer 1

您不能使用 SciKit Learn 获取 DataFrame。但是，您可以在已安装的 LabelBinarizer 上调用 inverse_transform 方法来检索标签，例如

import pandas as pd
from sklearn import preprocessing

df = pd.DataFrame({"foo": ["A", "C", "B", "A"]})
lb = preprocessing.LabelBinarizer()
onehot = lb.fit_transform(df)
print(lb.inverse_transform(onehot))

因此，为了检索单热编码矩阵中列的标签，您可以通过逆变换运行单位矩阵：

print(lb.inverse_transform(np.identity(onehot.shape[1]))

如何将数据框列的分类值转换为 sckikit-learn 中的单热编码列？

How to transform categorical values of a dataframe column to a one-hot encoded columns in sckikit-learn?

python

dataframe

python-3.x

scikit-learn

one-hot-encoding