名称 'DataFrameSelector' 未定义

Question

我目前正在阅读 "Hands-On Machine Learning with Scikit-Learn & TensorFlow"。当我尝试重新创建转换管道代码时出现错误。我该如何解决这个问题？

代码：

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([('imputer', Imputer(strategy = "median")),
                        ('attribs_adder', CombinedAttributesAdder()),
                        ('std_scaler', StandardScaler()),
                        ])

housing_num_tr = num_pipeline.fit_transform(housing_num)

from sklearn.pipeline import FeatureUnion

num_attribs = list(housing_num)
cat_attribs = ["ocean_proximity"]

num_pipeline = Pipeline([
                         ('selector', DataFrameSelector(num_attribs)),
                         ('imputer', Imputer(strategy = "median")),
                         ('attribs_adder', CombinedAttributesAdder()),
                         ('std_scaler', StandardScaler()),
                        ])

cat_pipeline = Pipeline([('selector', DataFrameSelector(cat_attribs)), 
                         ('label_binarizer', LabelBinarizer()),
                        ])

full_pipeline = FeatureUnion(transformer_list = [("num_pipeline", num_pipeline), 
                                                 ("cat_pipeline", cat_pipeline),
                                                ])

# And we can now run the whole pipeline simply:

housing_prepared = full_pipeline.fit_transform(housing)
housing_prepared

错误：

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
<ipython-input-350-3a4a39e5bc1c> in <module>()
     43 
     44 num_pipeline = Pipeline([
---> 45                          ('selector', DataFrameSelector(num_attribs)),
     46                          ('imputer', Imputer(strategy = "median")),
     47                          ('attribs_adder', CombinedAttributesAdder()),

NameError: name 'DataFrameSelector' is not defined

Answer 1

未找到

DataFrameSelector，需要导入。它不是 sklearn 的一部分，但 sklearn-features:

中有同名的东西

from sklearn_features.transformers import DataFrameSelector

(DOCS)

Answer 2

from sklearn.base import BaseEstimator, TransformerMixin

class DataFrameSelector(BaseEstimator, TransformerMixin):
    def __init__(self, attribute_names):
        self.attribute_names=attribute_names
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        return X[self.attribute_names].values

这应该有效。

Answer 3

from sklearn.pipeline import FeatureUnion
class DataFrameSelector(BaseEstimator, TransformerMixin):
    def __init__(self, attribute_names):
        self.attribute_names = attribute_names
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        return X[self.attribute_names].values

可能有用。

Answer 4

如果您正在使用 Sklearn 和 Tensorflow 学习机器学习之手，它就在下一页，一个定制的 Dataframe 生成器

from sklearn.pipeline import FeatureUnion
class DataFrameSelector(BaseEstimator, TransformerMixin):
    def __init__(self, attribute_names):
        self.attribute_names = attribute_names
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        return X[self.attribute_names].values

Answer 5

您似乎正在研究 California Housing Price Predictions 书中的项目 Hands-On Machine Learning with Scikit-learn and TensorFlow。

错误

NameError: name 'DataFrameSelector' is not defined

出现是因为sklearn中没有DataFrameSelector转换器。要克服此错误，您需要为此编写自己的自定义转换器。

在本书中，您可以在下一页找到 DataFrameSelector 转换器代码，但我也会在下面复制此代码。

from sklearn.base import BaseEstimator, TransformerMixin

class DataFrameSelector(BaseEstimator, TransformerMixin):
    def __init__(self, attribute_names):
        self.attribute_names = attribute_names
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        return X[self.attribute_names].values

BaseEstimator和TransformerMixinclasses用于继承fit()、transform()和fit_transform()方法。

现在还有另一个 class DataFrameMapper 也可以在 sklearn-pandas 中使用，与 objective 类似。您可以从以下 link 中找到有关此 class 的详细信息：
DataFrameMapper

Answer 6

您应该在当前代码单元格之前插入一个单元格，然后键入以下代码

from sklearn.base import BaseEstimator, TransformerMixin

class DataFrameSelector(BaseEstimator, TransformerMixin):

def __init__(self, attribute_names):
    self.attribute_names = attribute_names
def fit(self, X, y=None):
    return self
def transform(self, X, y=None):
    return X[self.attribute_names].values

通过这种方式，您的 DataFrameSelector class 将被预先定义

名称 'DataFrameSelector' 未定义

name 'DataFrameSelector' is not defined

python

pipeline

scikit-learn

代码：

错误：