GridSearchCV - 跨测试访问预测值?

GridSearchCV - access to predicted values across tests?

有没有办法访问在 GridSearchCV 过程中计算的预测值?

我希望能够根据实际值(来自 test/validation 集)绘制预测的 y 值。

网格搜索完成后,我可以使用

将其与其他一些数据相匹配
 ypred = grid.predict(xv)

但我希望能够绘制在网格搜索期间计算的值。也许有一种方法可以将点保存为 pandas 数据框?

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV, KFold, 
cross_val_score, train_test_split
from sklearn.pipeline import Pipeline
from sklearn.svm import SVR

scaler = StandardScaler()
svr_rbf = SVR(kernel='rbf')
pipe = Pipeline(steps=[('scaler', scaler), ('svr_rbf', svr_rbf)])
grid = GridSearchCV(pipe, param_grid=parameters, cv=splits, refit=True, verbose=3, scoring=msescorer, n_jobs=4)
grid.fit(xt, yt)

一个解决方案是制作自定义记分器并将其接收的参数保存到全局变量中:

from sklearn.grid_search import GridSearchCV
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error,make_scorer

X, y = np.random.rand(2,200)
clf = SVR()

ys = []

def MSE(y_true,y_pred):
    global ys
    ys.append(y_pred)
    mse = mean_squared_error(y_true, y_pred)
    return mse

def scorer():
    return make_scorer(MSE, greater_is_better=False)

n_splits = 3 
cv = GridSearchCV(clf, {'degree':[1,2,3]}, scoring=scorer(), cv=n_splits)
cv.fit(X.reshape(-1, 1), y)

然后我们需要将每个拆分收集到一个完整的数组中:

idxs = range(0, len(ys)+1, n_splits)
#e.g. [0, 3, 6, 9]
#collect every n_split elements into a single list
new = [ys[j[0]+1:j[1]] for j in zip(idxs,idxs[1:])]
#summing every such list
ys = [reduce(lambda x,y:np.concatenate((x,y), axis=0), i) for i in new]

使用多个处理器并存储 y_pred_proba 而不是 y_pred 的解决方案。

首先我们需要启动一个多进程管理器:

import multiprocessing
manager = multiprocessing.Manager()

在实例化 GridSearchCV 之前,我们需要创建一个虚拟记分器,它将捕获并存储概率值。在我的例子中,我使用了 ROC_AUC,但任何指标都有效:

scorers = {}
def roc_auc_dummy(y_true, y_pred_proba):
    global ys # This will make sure `ys` is in the global, not local, scope
    ys.append(y_pred_proba)
    roc_auc = roc_auc_score(y_true, y_pred_proba)
    return roc_auc
scorers['roc_auc'] = make_scorer(roc_auc_dummy, needs_proba = True)

scorers 可以根据您的需要提供其他评分功能。然后,我们需要使用管理器创建一个列表,实例化GridSearchCV,并适应它。

ys = manager.list()
clf = GridSearchCV(model, params, scoring = scorers)
clf.fit(X, y)

可以将 ys 转换为列表来检索概率:

y_pred_probas = list(ys)

y_pred_probas 将是一个列表列表,其中每个内部列表的顺序与 clf.cv_results_['params'].

中的顺序相同