bel*_*kon 2 r subset dataframe
我有一个问题,你想帮我一个忙吗?我试图提出解决方案,但我不知道如何解决这个问题.
请使用它来重新创建我的数据帧.
structure(list(A1 = c(87L, 67L, 80L, 36L, 71L, 6L, 26L, 15L,
14L, 46L, 19L, 93L, 5L, 94L), A2 = c(50L, NA, 73L, 58L, 47L,
74L, 39L, NA, NA, NA, NA, NA, NA, NA), A3 = c(NA, 38L, 10L, 41L,
NA, 66L, NA, 7L, 29L, NA, 70L, 23L, 46L, 55L)), .Names = c("A1",
"A2", "A3"), class = "data.frame", row.names = c(NA, -14L))
Run Code Online (Sandbox Code Playgroud)
我有这个数据帧:
A1 A2 A3
87 50 NA
67 NA 38
80 73 10
36 58 41
71 47 NA
6 74 66
26 39 NA
15 NA 7
14 NA 29
46 NA NA
19 NA 70
93 NA 23
5 NA 46
94 NA 55
Run Code Online (Sandbox Code Playgroud)
切片数据帧的方法是什么,我们每列有大于或等于7个观察值(计数)? 所以,期望的输出看起来像这样(我们每列有obervation> = 7):
A1 A3
87 NA
67 38
80 10
36 41
71 NA
6 66
26 NA
15 7
14 29
46 NA
19 70
93 23
5 46
94 55
Run Code Online (Sandbox Code Playgroud)
我欢迎任何可以推广到更多专栏的解决方案.
尝试
df1[, colSums(!is.na(df1)) >= 7]
# A1 A3
#1 87 NA
#2 67 38
#3 80 10
#4 36 41
#5 71 NA
#6 6 66
#7 26 NA
#8 15 7
#9 14 29
#10 46 NA
#11 19 70
#12 93 23
#13 5 46
#14 94 55
Run Code Online (Sandbox Code Playgroud)
一步步
您首先需要做的是找出数据的哪些值不丢失.
!is.na(df1)
Run Code Online (Sandbox Code Playgroud)
这返回一个逻辑矩阵
# A1 A2 A3
# [1,] TRUE TRUE FALSE
# [2,] TRUE FALSE TRUE
# [3,] TRUE TRUE TRUE
# [4,] TRUE TRUE TRUE
# [5,] TRUE TRUE FALSE
# [6,] TRUE TRUE TRUE
# [7,] TRUE TRUE FALSE
# [8,] TRUE FALSE TRUE
# [9,] TRUE FALSE TRUE
#[10,] TRUE FALSE FALSE
#[11,] TRUE FALSE TRUE
#[12,] TRUE FALSE TRUE
#[13,] TRUE FALSE TRUE
#[14,] TRUE FALSE TRUE
Run Code Online (Sandbox Code Playgroud)
使用colSums找出多少每列的意见都不缺
colSums(!is.na(df1))
#A1 A2 A3
#14 6 10
Run Code Online (Sandbox Code Playgroud)
适用于"每列大于或等于7个观察值(计数)"的条件
colSums(!is.na(df1)) >= 7
# A1 A2 A3
# TRUE FALSE TRUE
Run Code Online (Sandbox Code Playgroud)
最后,您需要使用此向量来对数据进行子集化
df1[, colSums(!is.na(df1)) >= 7]
Run Code Online (Sandbox Code Playgroud)
如果你需要它,请将其转换为函数
almost_complete_cols <- function(data, min_obs) {
data[, colSums(!is.na(data)) >= min_obs, drop = FALSE]
}
almost_complete_cols(df1, 7)
Run Code Online (Sandbox Code Playgroud)