R中每组第k_th个最小元素

Question

R中每组第k_th个最小元素

我有一个数据表，dt看起来像

   location year value
       NYC 2026     1
       NYC 2026     2
       NYC 2026     3
       NYC 2026     4
       NYC 2026     5
        LA 2026     6
        LA 2026     7
        LA 2026     8
        LA 2026     9
        LA 2026    10

Run Code Online (Sandbox Code Playgroud)

我想对它们进行分组，city并year在value每组中的列中找到第二小的元素，所需的结果如下所示：

   location year value
        NYC  2026     2
         LA  2026     7

Run Code Online (Sandbox Code Playgroud)

dt %>% grou_by(location, year) %>% nth(value, 2)

将无法正常工作。任何帮助表示赞赏。

上面的数据表可以通过以下方式创建：

dt <- structure(list(location = c("NYC", "NYC", "NYC","NYC", "NYC", 
                                   "LA", "LA", "LA", "LA", "LA"), 
                 year = c(2026, 2026, 2026, 2026, 2026,
                          2026, 2026, 2026, 2026, 2026),
                 value = c(1, 2, 3, 4, 5,
                           6, 7, 8, 9, 10)),
                 class = "data.table", 
                 row.names = c(NA, -10L))

Run Code Online (Sandbox Code Playgroud)

Answer 1

tmf*_*mnk 6

一种dplyr可能是：

df %>%
 group_by(location) %>%
 arrange(value) %>%
 slice(2)

Run Code Online (Sandbox Code Playgroud)

在此，它按“位置”列进行分组，根据“值”列排列值，然后保留第二个元素。

  location  year value
  <chr>    <int> <int>
1 LA        2026     7
2 NYC       2026     2

Run Code Online (Sandbox Code Playgroud)

或者，如果“值”列中的值可以重复，则可以执行以下操作：

df %>%
 group_by(location) %>%
 distinct(value, .keep_all = TRUE) %>%
 arrange(value) %>%
 slice(2)

Run Code Online (Sandbox Code Playgroud)

或使用filter()代替slice()：

df %>%
 group_by(location) %>%
 arrange(value) %>%
 filter(row_number() == 2)

Run Code Online (Sandbox Code Playgroud)

出于同样考虑也可能重复：

df %>%
 group_by(location) %>%
 distinct(value, .keep_all = TRUE) %>%
 arrange(value) %>%
 filter(row_number() == 2)

Run Code Online (Sandbox Code Playgroud)

或使用filter()和dense_rank()：

df %>%
 group_by(location) %>%
 filter(dense_rank(value) == 2)

Run Code Online (Sandbox Code Playgroud)

出于同样考虑也可能重复：

df %>%
 group_by(location) %>%
 distinct(value, .keep_all = TRUE) %>%
 filter(dense_rank(value) == 2)

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，7 月前
查看次数：	70 次
最近记录：	6 年，7 月前