"Null/Not Null" 的 scikit-learn 编码器？

Question

我在数据集中有许多变量 a) 稀疏 b) 唯一（主要是...）。像这样：

Foo NaN NaN Bar NaN NaN NaN Baz

虽然这些变量的实际值在某些情况下很有趣，但我经常发现自己只是将它们替换为 True/False for Null/Not Null。

我想知道这是否作为 scikit-learn 的编码器存在——如果没有，有人知道如何实现它吗？

Answer 1

以下对我有用：

class NullNotNullTransformer(BaseEstimator, TransformerMixin):
    """
    Transforms data according to null/not-null scheme.
    """
    def fit(self, X):
        return self

    def transform(self, X):
        return pd.isnull(X)

"Null/Not Null" 的 scikit-learn 编码器？

A scikit-learn encoder for "Null/Not Null"?

python

scikit-learn