有条件地删除缺少数据的行

Remove rows with missing data conditionally

我有一个包含一些缺失值的数据框,显示为 NA。

例如:

     V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
1    4  3  6  7  2  1  2  3  4   1
2    5  5  4  3  2  1  3  7  6   7  
3    6  6  NA NA NA NA NA NA NA NA
4    5  2  2  1  7  NA NA NA NA NA
5    7  NA NA NA NA NA NA NA NA NA

我想删除包含至少 80% 缺失数据的行。在此示例中,它显然是第 3 行和第 5 行。我知道如何手动删除行,但我需要一些代码方面的帮助,因为我的原始数据框包含 480 个变量和 1000 多行,所以自动识别和删除行的代码具有 >80% 的 NA 数据将非常有用。

提前致谢

你可以使用 rowMeans:

df = read.table(text='     V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
1    4  3  6  7  2  1  2  3  4   1
                2    5  5  4  3  2  1  3  7  6   7  
                3    6  6  NA NA NA NA NA NA NA NA
                4    5  2  2  1  7  NA NA NA NA NA
                5    7  NA NA NA NA NA NA NA NA NA')

df[rowMeans(is.na(df))<.8,]

输出:

  V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
1  4  3  6  7  2  1  2  3  4   1
2  5  5  4  3  2  1  3  7  6   7
4  5  2  2  1  7 NA NA NA NA  NA

希望对您有所帮助!

我们可以在逻辑矩阵

上使用rowSums
df1[rowSums(is.na(df1))/ncol(df1) < 0.8,]
#    V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
#1  4  3  6  7  2  1  2  3  4   1
#2  5  5  4  3  2  1  3  7  6   7
#4  5  2  2  1  7 NA NA NA NA  NA