预测缺少预测变量的新实例
Predicting new instance with missing predictor
我有一个(可能是愚蠢的)问题关于预测一个缺少预测变量的新实例。
我得到了一个数据。假设我预处理、清理数据,结果,比方说,剩下 10 个预测变量。然后,我在结果数据上训练我的模型,所以我准备好使用模型进行预测。
现在,如果我想预测一个缺少 1 或 2 个预测变量的新实例,我该怎么办?
至少有两个合理的解决方案。
(1) 对一个或多个缺失变量的可能值的输出进行平均,以非缺失变量的值为条件。也就是说,计算每个可能的缺失值的输出预测(缺失,非缺失)的加权平均值,由给定非缺失的缺失概率加权。这本质上就是文献中所谓的"multiple imputation"的变种
首先要尝试的是通过无条件的缺失分布来加权。如果这看起来太复杂,一个非常粗略的近似是将缺失的平均值代入预测。
(2) 为每个组合变量建立模型。如果你有 n 个变量,这意味着构建 2^n 个变量。如果 n = 10,现在 1024 个模型不是什么大问题。然后,如果您缺少一些变量,只需使用存在的模型即可。
顺便说一下,您可能会在 stats.stackexchange.com 上对这个问题更感兴趣。
我有一个(可能是愚蠢的)问题关于预测一个缺少预测变量的新实例。
我得到了一个数据。假设我预处理、清理数据,结果,比方说,剩下 10 个预测变量。然后,我在结果数据上训练我的模型,所以我准备好使用模型进行预测。
现在,如果我想预测一个缺少 1 或 2 个预测变量的新实例,我该怎么办?
至少有两个合理的解决方案。
(1) 对一个或多个缺失变量的可能值的输出进行平均,以非缺失变量的值为条件。也就是说,计算每个可能的缺失值的输出预测(缺失,非缺失)的加权平均值,由给定非缺失的缺失概率加权。这本质上就是文献中所谓的"multiple imputation"的变种
首先要尝试的是通过无条件的缺失分布来加权。如果这看起来太复杂,一个非常粗略的近似是将缺失的平均值代入预测。
(2) 为每个组合变量建立模型。如果你有 n 个变量,这意味着构建 2^n 个变量。如果 n = 10,现在 1024 个模型不是什么大问题。然后,如果您缺少一些变量,只需使用存在的模型即可。
顺便说一下,您可能会在 stats.stackexchange.com 上对这个问题更感兴趣。