预测缺少预测变量的新实例

Predicting new instance with missing predictor

我有一个（可能是愚蠢的）问题关于预测一个缺少预测变量的新实例。

我得到了一个数据。假设我预处理、清理数据，结果，比方说，剩下 10 个预测变量。然后，我在结果数据上训练我的模型，所以我准备好使用模型进行预测。

现在，如果我想预测一个缺少 1 或 2 个预测变量的新实例，我该怎么办？

至少有两个合理的解决方案。

(1) 对一个或多个缺失变量的可能值的输出进行平均，以非缺失变量的值为条件。也就是说，计算每个可能的缺失值的输出预测（缺失，非缺失）的加权平均值，由给定非缺失的缺失概率加权。这本质上就是文献中所谓的"multiple imputation"的变种

首先要尝试的是通过无条件的缺失分布来加权。如果这看起来太复杂，一个非常粗略的近似是将缺失的平均值代入预测。

(2) 为每个组合变量建立模型。如果你有 n 个变量，这意味着构建 2^n 个变量。如果 n = 10，现在 1024 个模型不是什么大问题。然后，如果您缺少一些变量，只需使用存在的模型即可。

顺便说一下，您可能会在 stats.stackexchange.com 上对这个问题更感兴趣。