将 Pandas Dataframe 转换为 sklearn 的 numpy
Convert Pandas Dataframe to numpy for sklearn
我是 python 和 sklearn 的新手。我有一个泰坦尼克号数据集的 pandas 数据框。我希望它用于 sklearn 逻辑预测。
我尝试了以下方法
data_np = data.astype(np.int32).values
但是没有用。我想利用数据集中的不同特征,例如 'Pclass'、"Age"、'Sex' 等...
我想将整个数据以及单列数据["Age"]转换为 sklearn numpy 格式。任何帮助。
要处理数值 和 非数值数据,请考虑使用 scikit-learn LabelEncoder,它允许您
Encode labels with value between 0 and n_classes-1.
另请参阅:
'Sex' 和 'Embarked' 等分类变量需要单热编码才能在 LogisticRegression
模型中使用它们。使用 pandas 您可以使用 get_dummies(data['Sex'])
.
这里有一个完整的教程专门介绍了同一数据集上的这个问题:
这是一个常见问题。主要原因是对numpy不熟悉。
要将数据['Sex']的特征转换为颠簸数组,请使用以下代码。
from sklearn.preprocessing import LabelEncoder
enc = LabelEncoder()
label_encoder = enc.fit(p_train['Sex'])
print "Categorical classes:", label_encoder.classes_
integer_classes = label_encoder.transform(label_encoder.classes_)
print "Integer classes:", integer_classes
x_train = label_encoder.transform(p_train['Sex'])
x_test = label_encoder.transform(p_test['Sex'])
x_train = x_train[:,np.newaxis]
x_test = x_test[:,np.newaxis]
在这里,我们基本上是将 'male' 和 'female' 分类数据转换为 0 和 1 的整数 类。这是 sclera 期望一切都是浮动的要素。 np.newaxis 用于将 x_train 的形状从 (n_features,) 转换为 (n_features,1)。否则,在拟合模型时,您将遇到另一个形状不兼容的错误。
我是 python 和 sklearn 的新手。我有一个泰坦尼克号数据集的 pandas 数据框。我希望它用于 sklearn 逻辑预测。
我尝试了以下方法
data_np = data.astype(np.int32).values
但是没有用。我想利用数据集中的不同特征,例如 'Pclass'、"Age"、'Sex' 等...
我想将整个数据以及单列数据["Age"]转换为 sklearn numpy 格式。任何帮助。
要处理数值 和 非数值数据,请考虑使用 scikit-learn LabelEncoder,它允许您
Encode labels with value between 0 and n_classes-1.
另请参阅:
'Sex' 和 'Embarked' 等分类变量需要单热编码才能在 LogisticRegression
模型中使用它们。使用 pandas 您可以使用 get_dummies(data['Sex'])
.
这里有一个完整的教程专门介绍了同一数据集上的这个问题:
这是一个常见问题。主要原因是对numpy不熟悉。
要将数据['Sex']的特征转换为颠簸数组,请使用以下代码。
from sklearn.preprocessing import LabelEncoder
enc = LabelEncoder()
label_encoder = enc.fit(p_train['Sex'])
print "Categorical classes:", label_encoder.classes_
integer_classes = label_encoder.transform(label_encoder.classes_)
print "Integer classes:", integer_classes
x_train = label_encoder.transform(p_train['Sex'])
x_test = label_encoder.transform(p_test['Sex'])
x_train = x_train[:,np.newaxis]
x_test = x_test[:,np.newaxis]
在这里,我们基本上是将 'male' 和 'female' 分类数据转换为 0 和 1 的整数 类。这是 sclera 期望一切都是浮动的要素。 np.newaxis 用于将 x_train 的形状从 (n_features,) 转换为 (n_features,1)。否则,在拟合模型时,您将遇到另一个形状不兼容的错误。