如何处理随机森林的二进制变量(0 和 1)中的 NaN?
How to handle NaNs in binary variables (0 & 1) for Random Forest?
我想在 Python 中使用随机森林预测客户流失。我只有二元变量(0 和 1),但大多数变量包含高达 60% 的缺失值。
只需用 -1
填充 NaN。这样模型就可以对它们进行特殊处理,因为随机森林模型是基于决策树的,所以它可以轻松处理这种情况。
用零替换不是一种选择,因为您会将实际的 0
值与缺失数据混合(认为如果您用零替换缺失数据,模型将不再能够区分其中哪些为零,哪些实际上缺失数据)。替换为极值是最好的,这样模型可以使用存在缺失值的事实作为额外信息。
我想在 Python 中使用随机森林预测客户流失。我只有二元变量(0 和 1),但大多数变量包含高达 60% 的缺失值。
只需用 -1
填充 NaN。这样模型就可以对它们进行特殊处理,因为随机森林模型是基于决策树的,所以它可以轻松处理这种情况。
用零替换不是一种选择,因为您会将实际的 0
值与缺失数据混合(认为如果您用零替换缺失数据,模型将不再能够区分其中哪些为零,哪些实际上缺失数据)。替换为极值是最好的,这样模型可以使用存在缺失值的事实作为额外信息。