有条件地删除缺失数据的行

Psy*_*ats 0 boolean-logic r dataframe na

我有一个包含一些缺失值的数据框,显示为 NA。

例如:

     V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
1    4  3  6  7  2  1  2  3  4   1
2    5  5  4  3  2  1  3  7  6   7  
3    6  6  NA NA NA NA NA NA NA NA
4    5  2  2  1  7  NA NA NA NA NA
5    7  NA NA NA NA NA NA NA NA NA
Run Code Online (Sandbox Code Playgroud)

我想删除包含至少 80% 缺失数据的行。在这个例子中,它显然是第 3 行和第 5 行。我知道如何手动删除行,但我想要一些代码方面的帮助,因为我的原始数据帧包含 480 个变量和 1000 多行,因此是自动识别和删除行的代码>80% NA 数据将非常有用。

提前致谢

Flo*_*ian 5

你可以使用rowMeans

df = read.table(text='     V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
1    4  3  6  7  2  1  2  3  4   1
                2    5  5  4  3  2  1  3  7  6   7  
                3    6  6  NA NA NA NA NA NA NA NA
                4    5  2  2  1  7  NA NA NA NA NA
                5    7  NA NA NA NA NA NA NA NA NA')

df[rowMeans(is.na(df))<.8,]
Run Code Online (Sandbox Code Playgroud)

输出:

  V1 V2 V3 V4 V5 V6 V7 V8 V9 V10
1  4  3  6  7  2  1  2  3  4   1
2  5  5  4  3  2  1  3  7  6   7
4  5  2  2  1  7 NA NA NA NA  NA
Run Code Online (Sandbox Code Playgroud)

希望这可以帮助!