sklearn - 如何从传递给 GridSearchCV 的管道内部检索 PCA 组件和解释方差

Question

我将 GridSearchCV 与管道一起使用，如下所示：

grid = GridSearchCV(
    Pipeline([
        ('reduce_dim', PCA()),
        ('classify', RandomForestClassifier(n_jobs = -1))
        ]),
    param_grid=[
        {
            'reduce_dim__n_components': range(0.7,0.9,0.1),
            'classify__n_estimators': range(10,50,5),
            'classify__max_features': ['auto', 0.2],
            'classify__min_samples_leaf': [40,50,60],
            'classify__criterion': ['gini', 'entropy']
        }
    ],
    cv=5, scoring='f1')

grid.fit(X,y)

我现在如何从 grid.best_estimator_ 模型中检索 components 和 explained_variance 等 PCA 详细信息？

此外，我还想使用 pickle 将 best_estimator_ 保存到一个文件中，然后再加载它。如何从此加载的估算器中检索 PCA 详细信息？我怀疑它会和上面一样。

Answer 1

grid.best_estimator_是访问pipeline最好的参数。

现在使用 named_steps[]attribute 访问管道的内部估算器。

所以 grid.best_estimator_.named_steps['reduce_dim'] 会给你 pca 对象。现在您可以简单地使用它来访问此 pca 对象的 components_ 和 explained_variance_ 属性，如下所示：

grid.best_estimator_.named_steps['reduce_dim'].components_ grid.best_estimator_.named_steps['reduce_dim'].explained_variance_

sklearn - 如何从传递给 GridSearchCV 的管道内部检索 PCA 组件和解释方差

sklearn - How to retrieve PCA components and explained variance from inside a Pipeline passed to GridSearchCV

python

pipeline

scikit-learn

grid-search