带有"["的嵌套子集

Sav*_*SUS 2 r subset

我最近发现,在用"["对一个对象(即一个数据帧)进行子集化之后,生成的对象可能是在同一行代码上带有"["的子集(我应该早点实现它!).这是一个例子:

# Create a data frame
df1 <- as.data.frame(matrix(1:9, nrow = 3))

# Take a look at the data frame
df1
  V1 V2 V3
1  1  4  7
2  2  5  8
3  3  6  9

# If I want the value which is on the 3rd row and 2nd column
df1[3,2]
[1] 6

# But I could also
df1[,2][3]
[1] 6
Run Code Online (Sandbox Code Playgroud)

关于第二种选择的几句话.df[,2]返回一个原子向量,然后是子集df[,2][3].

以下数据框架将有助于说明我的问题.它是一个简单的数据框,包含26名学生的姓名,他们各自的部门以及数值.添加种子数以获得再现性.

set.seed(123)
df2 <- data.frame(name = letters, dept = sample(c("econ", "stat", "math"), 26, replace = TRUE), value = runif(26, 0, 100))
head(df2)
  name dept    value
1    a econ 54.40660
2    b math 59.41420
3    c stat 28.91597
4    d math 14.71136
5    e math 96.30242
6    f econ 90.22990
Run Code Online (Sandbox Code Playgroud)

我想知道谁在该econ部门的价值最低.我尝试的第一件事是:

df2[df2$dept == "econ" & df2$value == min(df2$value),]
[1] name  dept  value
<0 rows> (or 0-length row.names)
Run Code Online (Sandbox Code Playgroud)

我花了一段时间来理解我做错了什么,但我终于意识到问题在于我的代码假设整体价值最低的人也来自econ部门,事实并非如此(这就是答案)那R给了我).实际上,整体价值最低的人来自stat部门.

i <- which(df$value == min(df$value))
df[i,]
  name dept    value
9    i stat 2.461368
Run Code Online (Sandbox Code Playgroud)

当然,我可以很容易地找到我的问题的答案:

df_econ <- df2[df2$dept == "econ",]
df_econ
   name dept    value
1     a econ 54.40660
6     f econ 90.22990
15    o econ 14.28000
17    q econ 41.37243
18    r econ 36.88455
19    s econ 15.24447
df_econ[df_econ$value == min(df_econ$value),]
   name dept value
15    o econ 14.28
Run Code Online (Sandbox Code Playgroud)

但我想知道我是否可以使用[运算符的"嵌套"子集获得相同的结果.我的意思是使用这样的代码:

df2[df2$dept == "econ",][... ,]
Run Code Online (Sandbox Code Playgroud)

我不知道如何在此时引用该value列,因为第一个子集化操作的结果数据帧df2[df2$dept == "econ",]是不同于的数据帧df2.我也知道该value列是第3列,但我不知道如何使用列索引而不是名称来设置子集条件.

谢谢您的帮助.

Fra*_*ank 5

以下是一些选项:

library(dplyr) 
# also in @bramtayl's answer:
df2 %>% filter(dept == "econ") %>% filter(value==min(value))
# or
df2 %>% filter(dept == "econ") %>% slice(which.min(value))

# or...

library(data.table) 
setDT(df2)[dept == "econ"][value==min(value)]
# or
setDT(df2)[dept == "econ"][which.min(value)]
Run Code Online (Sandbox Code Playgroud)

这些软件包提供了方便的链接方式,除了笨拙之外,在基础R中不可用

subset(subset(df2, dept=="econ"), value == min(value))
Run Code Online (Sandbox Code Playgroud)

可能还有其他包装,但这两种包装最近被广泛使用.


评论.如果您只是浏览数据,我建议您在dept级别进行汇总:

# dplyr:
df2 %>% group_by(dept) %>% slice(which.min(value))

# data.table:
df2[, .SD[which.min(value)], by=dept]


   dept name     value
1: econ    o 14.280002
2: math    t 13.880606
3: stat    i  2.461368
Run Code Online (Sandbox Code Playgroud)