具有 PredefinedSplit 评分的 Sklearn GridSearch 与独立分类器不匹配
Sklearn GridSearch with PredefinedSplit scoring does not match a standalone classifier
我正在使用 sklearn GridSearch 来使用预定义的验证集找到随机森林分类的最佳参数。 GridSearch 返回的最佳估计器的分数与通过使用相同参数训练单独的分类器获得的分数不匹配。
数据拆分定义
X = pd.concat([X_train, X_devel])
y = pd.concat([y_train, y_devel])
test_fold = -X.index.str.contains('train').astype(int)
ps = PredefinedSplit(test_fold)
GridSearch 定义
n_estimators = [10]
max_depth = [4]
grid = {'n_estimators': n_estimators, 'max_depth': max_depth}
rf = RandomForestClassifier(random_state=0)
rf_grid = GridSearchCV(estimator = rf, param_grid = grid, cv = ps, scoring='recall_macro')
rf_grid.fit(X, y)
分类器定义
clf = RandomForestClassifier(n_estimators=10, max_depth=4, random_state=0)
clf.fit(X_train, y_train)
召回率是使用 sklearn.metrics.recall_score
明确计算的
y_pred_train = clf.predict(X_train)
y_pred_devel = clf.predict(X_devel)
uar_train = recall_score(y_train, y_pred_train, average='macro')
uar_devel = recall_score(y_devel, y_pred_devel, average='macro')
网格搜索
uar train: 0.32189884516029466
uar devel: 0.3328299259976279
随机森林:
uar train: 0.483040291148839
uar devel: 0.40706644557392435
这种不匹配的原因是什么?
这是因为在您的 GridSearchCV
中,您使用的评分函数是 recall-macro
,基本上 return recall score
是 macro
的平均值。参见 this link。
但是,当您 return 从 RandomForestClassifier
中获取默认分数时,它 return 是 mean accuracy
。所以,这就是分数不同的原因。有关相同信息,请参阅 this link。 (因为一个是召回率,另一个是准确率)。
这里有多个问题:
您对 recall_score
的输入参数被颠倒了。实际正确的顺序是:
recall_score(y_true, y_test)
但是你在做:
recall_score(y_pred_train, y_train, average='macro')
更正为:
recall_score(y_train, y_pred_train, average='macro')
您正在 rf_grid.fit(X, y)
进行网格搜索。这意味着在找到最佳参数组合后,GridSearchCV 将适合整个数据(整个 X,忽略 PredefinedSplit
因为它仅在交叉验证期间用于搜索最佳参数)。所以本质上,来自 GridSearchCV
的估计器将看到整个数据,因此分数将与你在 clf.fit(X_train, y_train)
时得到的分数不同
我正在使用 sklearn GridSearch 来使用预定义的验证集找到随机森林分类的最佳参数。 GridSearch 返回的最佳估计器的分数与通过使用相同参数训练单独的分类器获得的分数不匹配。
数据拆分定义
X = pd.concat([X_train, X_devel])
y = pd.concat([y_train, y_devel])
test_fold = -X.index.str.contains('train').astype(int)
ps = PredefinedSplit(test_fold)
GridSearch 定义
n_estimators = [10]
max_depth = [4]
grid = {'n_estimators': n_estimators, 'max_depth': max_depth}
rf = RandomForestClassifier(random_state=0)
rf_grid = GridSearchCV(estimator = rf, param_grid = grid, cv = ps, scoring='recall_macro')
rf_grid.fit(X, y)
分类器定义
clf = RandomForestClassifier(n_estimators=10, max_depth=4, random_state=0)
clf.fit(X_train, y_train)
召回率是使用 sklearn.metrics.recall_score
明确计算的y_pred_train = clf.predict(X_train)
y_pred_devel = clf.predict(X_devel)
uar_train = recall_score(y_train, y_pred_train, average='macro')
uar_devel = recall_score(y_devel, y_pred_devel, average='macro')
网格搜索
uar train: 0.32189884516029466
uar devel: 0.3328299259976279
随机森林:
uar train: 0.483040291148839
uar devel: 0.40706644557392435
这种不匹配的原因是什么?
这是因为在您的 GridSearchCV
中,您使用的评分函数是 recall-macro
,基本上 return recall score
是 macro
的平均值。参见 this link。
但是,当您 return 从 RandomForestClassifier
中获取默认分数时,它 return 是 mean accuracy
。所以,这就是分数不同的原因。有关相同信息,请参阅 this link。 (因为一个是召回率,另一个是准确率)。
这里有多个问题:
您对
recall_score
的输入参数被颠倒了。实际正确的顺序是:recall_score(y_true, y_test)
但是你在做:
recall_score(y_pred_train, y_train, average='macro')
更正为:
recall_score(y_train, y_pred_train, average='macro')
您正在
rf_grid.fit(X, y)
进行网格搜索。这意味着在找到最佳参数组合后,GridSearchCV 将适合整个数据(整个 X,忽略PredefinedSplit
因为它仅在交叉验证期间用于搜索最佳参数)。所以本质上,来自GridSearchCV
的估计器将看到整个数据,因此分数将与你在clf.fit(X_train, y_train)
时得到的分数不同