如何处理随机森林的二进制变量（0 和 1）中的 NaN？

How to handle NaNs in binary variables (0 & 1) for Random Forest?

我想在 Python 中使用随机森林预测客户流失。我只有二元变量（0 和 1），但大多数变量包含高达 60% 的缺失值。

只需用 -1 填充 NaN。这样模型就可以对它们进行特殊处理，因为随机森林模型是基于决策树的，所以它可以轻松处理这种情况。

用零替换不是一种选择，因为您会将实际的 0 值与缺失数据混合（认为如果您用零替换缺失数据，模型将不再能够区分其中哪些为零，哪些实际上缺失数据）。替换为极值是最好的，这样模型可以使用存在缺失值的事实作为额外信息。