如何将 pandas 操作集成到 sklearn 管道中

Question

我对 pandas 数据帧进行了简单操作，如下所示：

# initialization
dct = {1: 'A', 2:'B', 3: 'C'}
df = pd.DataFrame({'id': [1,2,3], 'value':[7,8,9]})
# actual transformation
df['newid'] = df.id.map(dct)

我想将此转换作为 sklearn 管道的一部分。我找到了一些教程 here, here, and here。但我就是无法让它为我工作。这是我尝试过的许多版本中的一个版本：

# initialization
dct = {1: 'A', 2:'B', 3: 'C'}
df = pd.DataFrame({'id': [1,2,3], 'value':[7,8,9]})

# define a class similar to those in the tutorials
class idMapper(BaseEstimator, TransformerMixin):
    def __init__(self, key='id'):
        self.key = key

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        return X[key].map(dct)

# Apply the transformation
idMapper.fit_transform(df)

错误信息是这样的：TypeError: fit_transform() missing 1 required positional argument: 'X'。谁能帮我解决这个问题并让它正常工作？谢谢！

Answer 1

请参阅下面的代码更正版本。评论中给出的解释。

dct = {1: 'A', 2:'B', 3: 'C'}
df = pd.DataFrame({'id': [1,2,3], 'value':[7,8,9]})

# define a class similar to those in the tutorials
class idMapper(BaseEstimator, TransformerMixin):
    def __init__(self, key='id'):
        self.key = key

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        return X[self.key].map(dct)  # <--- self.key

# Apply the transformation
idMapper().fit_transform(df)  # <--- need to instantiate

如何将 pandas 操作集成到 sklearn 管道中

how to integrate a pandas operation into sklearn pipeline

python

pipeline

class

pandas

scikit-learn