mar*_*ska 6 replace r match dataframe
我试图在名为“region”的另一列中查找与文本同名的列名,并返回相应的值。我的数据“df”看起来与此类似
region A B C D E F
H 796 792 844 812 796 776
J 568 564 508 268 320 396
A 820 804 748 528 560 600
X 292 272 260 324 224 200
M 872 812 792 760 668 656
N 100 992 972 880 872 864
C 940 948 952 916 864 880
L 960 956 952 920 900 920
E 980 968 956 940 944 932
F 236 364 460 524 552 616
P 796 792 844 812 796 776
Q 568 564 508 268 320 396
Run Code Online (Sandbox Code Playgroud)
我想得到一些看起来像这样的东西:
region A B C D E F
H NA NA NA NA NA NA
J NA NA NA NA NA NA
A 820 NA NA NA NA NA
X NA NA NA NA NA NA
M NA NA NA NA NA NA
N NA NA NA NA NA NA
C NA NA 952 NA NA NA
L NA NA NA NA NA NA
E NA NA NA NA 944 NA
F NA NA NA NA NA 616
P NA NA NA NA NA NA
Q NA NA NA NA NA NA
Run Code Online (Sandbox Code Playgroud)
为此,我尝试了来自其他问题的这段代码(将行与列名匹配并计算前 3 列的平均值的循环),但它只返回位置,我想获得如图所示的值上面的例子。
apply (df, MARGIN = 1, FUN = function(x, i){
position <- (which(x[['region']] == colnames(df)))
})
如何修改代码以获取实际值?谢谢
第五个选项也使用base函数
idx <- na.omit(cbind(match(names(df1), df1$region),
1:length(df1)))
vals <- as.integer(df1[idx])
df1[-1] <- NA
df1[idx] <- vals
df1
# region A B C D E F
#1 H NA NA NA NA NA NA
#2 J NA NA NA NA NA NA
#3 A 820 NA NA NA NA NA
#4 X NA NA NA NA NA NA
#5 M NA NA NA NA NA NA
#6 N NA NA NA NA NA NA
#7 C NA NA 952 NA NA NA
#8 L NA NA NA NA NA NA
#9 E NA NA NA NA 944 NA
#10 F NA NA NA NA NA 616
#11 P NA NA NA NA NA NA
#12 Q NA NA NA NA NA NA
Run Code Online (Sandbox Code Playgroud)
数据
感谢@akrun
df1 <- structure(list(region = c("H", "J", "A", "X", "M", "N", "C",
"L", "E", "F", "P", "Q"), A = c(796L, 568L, 820L, 292L, 872L,
100L, 940L, 960L, 980L, 236L, 796L, 568L), B = c(792L, 564L,
804L, 272L, 812L, 992L, 948L, 956L, 968L, 364L, 792L, 564L),
C = c(844L, 508L, 748L, 260L, 792L, 972L, 952L, 952L, 956L,
460L, 844L, 508L), D = c(812L, 268L, 528L, 324L, 760L, 880L,
916L, 920L, 940L, 524L, 812L, 268L), E = c(796L, 320L, 560L,
224L, 668L, 872L, 864L, 900L, 944L, 552L, 796L, 320L), F = c(776L,
396L, 600L, 200L, 656L, 864L, 880L, 920L, 932L, 616L, 776L,
396L)), class = "data.frame", row.names = c(NA, -12L))
Run Code Online (Sandbox Code Playgroud)
因为dplyr 1.0.0,您可以使用cur_column():
df %>%
mutate(across(-region, ~ replace(., cur_column() != region, NA_integer_)))
region A B C D E F
1 H NA NA NA NA NA NA
2 J NA NA NA NA NA NA
3 A 820 NA NA NA NA NA
4 X NA NA NA NA NA NA
5 M NA NA NA NA NA NA
6 N NA NA NA NA NA NA
7 C NA NA 952 NA NA NA
8 L NA NA NA NA NA NA
9 E NA NA NA NA 944 NA
10 F NA NA NA NA NA 616
11 P NA NA NA NA NA NA
12 Q NA NA NA NA NA NA
Run Code Online (Sandbox Code Playgroud)
可以说不是最干净的dplyr方法,但您也可以尝试:
df %>%
mutate_at(vars(-1),
funs(replace(., .*(deparse(substitute(.)) == region) == 0, NA_integer_)))
Run Code Online (Sandbox Code Playgroud)
或者改编@markus 的逻辑:
df %>%
rowwise() %>%
mutate_at(vars(-1), funs(.[match(region, deparse(substitute(.)))]))
Run Code Online (Sandbox Code Playgroud)
还有一种奇异的base R选择:
df[-1] <- sweep(t(apply(df[1], 1, rep, length(df)-1)), 2, FUN = `==`, names(df[-1]))*df[-1]
df[-1] <- replace(df[-1], df[-1] == 0, NA_integer_)
Run Code Online (Sandbox Code Playgroud)