我有一个包含6列的R数据框,我想创建一个只有三列的新数据框.
假设我的数据帧df,并且我想提取列A,B和E,这是唯一的命令,我可以计算出:
data.frame(df$A,df$B,df$E)
Run Code Online (Sandbox Code Playgroud)
有更紧凑的方式吗?
Jos*_*ich 432
您可以使用列名称向量进行子集化.我强烈建议使用这种方法,而不是将列名称视为对象名称(例如subset()),尤其是在函数,包或应用程序中进行编程时.
# data for reproducible example
# (and to avoid confusion from trying to subset `stats::df`)
df <- setNames(data.frame(as.list(1:5)), LETTERS[1:5])
# subset
df[,c("A","B","E")]
Run Code Online (Sandbox Code Playgroud)
Sam*_*rke 128
使用dplyr包,如果调用了data.frame df1:
library(dplyr)
df1 %>%
select(A, B, E)
Run Code Online (Sandbox Code Playgroud)
这也可以在没有%>%管道的情况下编写:
select(df1, A, B, E)
Run Code Online (Sandbox Code Playgroud)
Sté*_*ent 96
这是该subset()功能的作用:
> dat <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9))
> subset(dat, select=c("A", "B"))
A B
1 1 3
2 2 4
Run Code Online (Sandbox Code Playgroud)
Hen*_*nry 75
有两个明显的选择:Joshua Ulrich df[,c("A","B","E")]或者
df[,c(1,2,5)]
Run Code Online (Sandbox Code Playgroud)
如在
> df <- data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,7),E=c(8,8),F=c(9,9))
> df
A B C D E F
1 1 3 5 7 8 9
2 2 4 6 7 8 9
> df[,c(1,2,5)]
A B E
1 1 3 8
2 2 4 8
> df[,c("A","B","E")]
A B E
1 1 3 8
2 2 4 8
Run Code Online (Sandbox Code Playgroud)
Ama*_*man 14
您还可以使用sqldf在R数据帧上执行选择的包:
df1 <- sqldf("select A, B, E from df")
Run Code Online (Sandbox Code Playgroud)
这给出了一个df1带有列的数据帧:A,B,E.
Ric*_*all 12
再次使用dplyr,其中df1是您的原始数据框:
df2 <- subset(df1, select = c(1, 2, 5))
Run Code Online (Sandbox Code Playgroud)
so8*_*860 11
仅出于某种原因
df[, (names(df) %in% c("A","B","E"))]
Run Code Online (Sandbox Code Playgroud)
为我工作.所有上述语法都产生了"未定义的列选择".