Scikit-learn cross val 分数：数组的索引太多

Question

我有以下代码

 from sklearn.ensemble import ExtraTreesClassifier
 from sklearn.cross_validation import cross_val_score
 #split the dataset for train and test
 combnum['is_train'] = np.random.uniform(0, 1, len(combnum)) <= .75
 train, test = combnum[combnum['is_train']==True], combnum[combnum['is_train']==False]

 et = ExtraTreesClassifier(n_estimators=200, max_depth=None, min_samples_split=10, random_state=0)
 min_samples_split=10, random_state=0  )

 labels = train[list(label_columns)].values
 tlabels = test[list(label_columns)].values

 features = train[list(columns)].values
 tfeatures = test[list(columns)].values

 et_score = cross_val_score(et, features, labels, n_jobs=-1)
 print("{0} -> ET: {1})".format(label_columns, et_score))

检查数组的形状：

 features.shape
 Out[19]:(43069, 34)

和

labels.shape
Out[20]:(43069, 1)

我得到：

IndexError: too many indices for array

和回溯的相关部分：

---> 22 et_score = cross_val_score(et, features, labels, n_jobs=-1)

我正在从 Pandas 数据帧创建数据，我在此处搜索并看到一些关于通过此方法可能出现的错误的参考，但不知道如何更正？数据数组是什么样的：功能

Out[21]:
array([[ 0.,  1.,  1., ...,  0.,  0.,  1.],
   [ 0.,  1.,  1., ...,  0.,  0.,  1.],
   [ 1.,  1.,  1., ...,  0.,  0.,  1.],
   ..., 
   [ 0.,  0.,  1., ...,  0.,  0.,  1.],
   [ 0.,  0.,  1., ...,  0.,  0.,  1.],
   [ 0.,  0.,  1., ...,  0.,  0.,  1.]])

标签

Out[22]:
array([[1],
   [1],
   [1],
   ..., 
   [1],
   [1],
   [1]])

Answer 1

如果您将目标标签指定为来自 Pandas 的单个数据列，这似乎是可以解决的。如果目标有多个列，我会收到类似的错误。例如尝试：

labels = train['Y']

Answer 2

当我们在 scikit-learn 中进行交叉验证时，该过程需要 (R,) 形状标签而不是 (R,1)。尽管它们在某种程度上是相同的东西，但它们的索引机制是不同的。所以在你的情况下，只需添加：

c, r = labels.shape
labels = labels.reshape(c,)

在将其传递给交叉验证函数之前。

Answer 3

将 .ravel() 添加到传递到公式中的 Y/Labels 变量也有助于在 KNN 中解决此问题。

Answer 4

尝试目标：

y=df['Survived']

相反，我使用了

y=df[['Survived']]

这使得目标 y 成为日期框架，看来系列还可以

Answer 5

您可能需要稍微调整一下尺寸，例如

et_score = cross_val_score(et, features, labels, n_jobs=-1)[:,n]

或

 et_score = cross_val_score(et, features, labels, n_jobs=-1)[n,:]

n 是维度。

Scikit-learn cross val 分数：数组的索引太多

Scikit-learn cross val score: too many indices for array

python

pandas

scikit-learn