OneHotEncoder - 仅编码一些分类变量列

Question

假设我有一个包含以下列名称的 pandas 数据框：

'age'（例如 33、26、51 等）
'seniority'（例如 'junior'、'senior' 等）
'gender'（例如'male'、'female'）
'salary'（例如 32000、40000、64000 等）

我想将 seniority 分类变量转换为一个热编码值。为此，我正在执行以下操作：

from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
data['seniority'] = label_encoder.fit_transform(data['seniority'])

from sklearn.preprocessing import OneHotEncoder
one_hot_encoder = OneHotEncoder(categorical_features=[1])
data = one_hot_encoder.fit_transform(data.values)

但是我收到了这个错误

ValueError: could not convert string to float: 'gender'

第

行

data = one_hot_encoder.fit_transform(data.values)

但是，我已明确指定 categorical_features=[1] 因此对于这一热编码，仅应考虑第 1 列 (seniority)。

如何修复此错误（除了删除列 'gender'）？

我以前用的是pandas.get_dummies，没遇到过这个问题。

Answer 1

我认为对于这种情况你应该坚持 pd.get_dummies:

>>> data
   age seniority  gender  salary
0    1    junior    male       5
1    2    senior  female       6
2    3    junior  female       7

# One hot encode with get_dummies
data = pd.concat((data,pd.get_dummies(data.seniority)),1)

>>> data
   age seniority  gender  salary  junior  senior
0    1    junior    male       5       1       0
1    2    senior  female       6       0       1
2    3    junior  female       7       1       0

问题是 sklearn 的 OneHotEncoder 需要一个整数数组作为输入。但是在数组 data.values 中，您仍然具有 gender 的字符串表示形式。如果你愿意，你可以只对资历值进行一次热编码，但是如果你想知道这些特性的含义，这不是很好，你必须手动将列名传递给它（这在很多情况下是不可行的） ):

from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
data['seniority'] = label_encoder.fit_transform(data['seniority'])

from sklearn.preprocessing import OneHotEncoder
one_hot_encoder = OneHotEncoder(sparse=False)
data[['junior','senior']] = one_hot_encoder.fit_transform(data['seniority'].values.reshape(-1,1))

>>> data
   age  seniority  gender  salary  junior  senior
0    1          0    male       5     1.0     0.0
1    2          1  female       6     0.0     1.0
2    3          0  female       7     1.0     0.0

或者，如果功能名称无关紧要：

from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
data['seniority'] = label_encoder.fit_transform(data['seniority'])

from sklearn.preprocessing import OneHotEncoder
one_hot_encoder = OneHotEncoder(sparse=False)
data = pd.concat((data,pd.DataFrame(one_hot_encoder.fit_transform(data['seniority'].values.reshape(-1,1)))),1)

   age  seniority  gender  salary    0    1
0    1          0    male       5  1.0  0.0
1    2          1  female       6  0.0  1.0
2    3          0  female       7  1.0  0.0

但最终，pd.get_dummies 以更好的方式完成了这项工作 (IMO)

OneHotEncoder - 仅编码一些分类变量列

OneHotEncoder - encoding only some of categorical variable columns

python

scikit-learn

one-hot-encoding