在回归(逻辑)中,如何在非分类变量内转换 MNAR(非随机缺失)观察值?
in regression (logistic), how can you convert MNAR (missing not at random) observations within a variable that isn't categorical?
假设我有一个二元结果,其中有 5 个输入变量。对于其中一个变量,它是一个数字变量,但有 20% 的缺失不是随机的(例如,如果它们缺失变量,它非常能说明结果,并且可能具有预测性)。
如果它是绝对的(比如 "male"、"female"),我可以轻松地将 NA 更改为 "other/missing" 之类的东西。但是我该如何为数字做那件事呢?当我将其分解为分类时,在数字组中用什么替换它?
这可能吗?
在逻辑回归中,对于 MNAR(非随机缺失),以简单方式最大化信息价值的建议是将 NA 重新编码为另一个 categorical/binary 变量并将 NA 更改为中位数值,因此二进制标志变量 can/should 捕获该变量 MNAR 观测值的有意义的方差。
假设我有一个二元结果,其中有 5 个输入变量。对于其中一个变量,它是一个数字变量,但有 20% 的缺失不是随机的(例如,如果它们缺失变量,它非常能说明结果,并且可能具有预测性)。
如果它是绝对的(比如 "male"、"female"),我可以轻松地将 NA 更改为 "other/missing" 之类的东西。但是我该如何为数字做那件事呢?当我将其分解为分类时,在数字组中用什么替换它?
这可能吗?
在逻辑回归中,对于 MNAR(非随机缺失),以简单方式最大化信息价值的建议是将 NA 重新编码为另一个 categorical/binary 变量并将 NA 更改为中位数值,因此二进制标志变量 can/should 捕获该变量 MNAR 观测值的有意义的方差。