我们如何在 R 中设置缺失数据（NA）？

Question

我有两组，训练集和测试集，其中有些值是 NA，我需要 R 语言的代码或指南来设置 NA 的值。谢谢....

Answer 1

df <- data.frame(a = sample(c(NA, 1:5),10, replace = T))

  a
  5
  5
  3
  2
 NA
  5
  1
 NA
  5
  4

现在用任何值替换 NA。请注意，在这种情况下，我将所有 NA's 替换为 0

df[is.na(df)] <- 0

结果

Answer 2

您在后续评论中询问是否可以将 NA 替换为零以外的值。你可以。一种方法是均值插补（以下代码转载自r博主：

df = data.frame(x = 1:20, y = c(1:10,rep(NA,10)))
df$y[is.na(df$y)] = mean(df$y, na.rm=TRUE)

了解均值插补是否适合您的数据（或任何其他适合该方式的插补）很重要short blog post on problems with mean imputation

谨慎使用。

How we can set missing data(NA) in R?