具有 'age' 特征的二元分类数据集,其某些值缺失

A binary classification dataset with a 'age' feature whose some of values are missing

这个分类问题有 300000 个元组和 20 个特征。我想用SVM算法来解决这个问题。 'age'这个特征在1到100之间,但是有些元组的这个特征是缺失的,是空白的。我应该怎么解决。

这当然取决于您丢失的变量的分布,但我会尝试插补 - 尝试使用平均年龄值填充空白,看看您会得到什么样的结果。下一步是创建一个模型来预测给定其他输入变量的年龄并将其用于插补。

您还可以添加一个变量,指示给定行具有一些估算值 - 在某些情况下,这会产生更好的训练结果,因为您为算法提供了更多信息。

除了@dratewka 已经提到的简单插补之外,我建议尝试:

  • 使用经典插补机制来插补特征,例如K 最近邻插补。这样,对于缺少 age 的样本 S,最接近 S 的那些 K 个样本用于推导合适的值来估算 age(距离使用所有其他特征测量的 S 的 K 个邻居)。

  • 执行上一步后,尝试使用 age 进行预测,但不要使用它。如果您发现您的预测性能不受 age 的影响,那么一开始完全忽略此信息可能也是合理的。