"Null/Not Null" 的 scikit-learn 编码器?
A scikit-learn encoder for "Null/Not Null"?
我在数据集中有许多变量 a) 稀疏 b) 唯一(主要是...)。像这样:
Foo
NaN
NaN
Bar
NaN
NaN
NaN
Baz
虽然这些变量的实际值在某些情况下很有趣,但我经常发现自己只是将它们替换为 True/False for Null/Not Null。
我想知道这是否作为 scikit-learn 的编码器存在——如果没有,有人知道如何实现它吗?
以下对我有用:
class NullNotNullTransformer(BaseEstimator, TransformerMixin):
"""
Transforms data according to null/not-null scheme.
"""
def fit(self, X):
return self
def transform(self, X):
return pd.isnull(X)
我在数据集中有许多变量 a) 稀疏 b) 唯一(主要是...)。像这样:
Foo
NaN
NaN
Bar
NaN
NaN
NaN
Baz
虽然这些变量的实际值在某些情况下很有趣,但我经常发现自己只是将它们替换为 True/False for Null/Not Null。
我想知道这是否作为 scikit-learn 的编码器存在——如果没有,有人知道如何实现它吗?
以下对我有用:
class NullNotNullTransformer(BaseEstimator, TransformerMixin):
"""
Transforms data according to null/not-null scheme.
"""
def fit(self, X):
return self
def transform(self, X):
return pd.isnull(X)