对数据框中组内的行进行编号

eli*_*i-k 136 r dataframe r-faq

使用与此类似的数据框:

set.seed(100)  
df <- data.frame(cat = c(rep("aaa", 5), rep("bbb", 5), rep("ccc", 5)), val = runif(15))             
df <- df[order(df$cat, df$val), ]  
df  

   cat        val  
1  aaa 0.05638315  
2  aaa 0.25767250  
3  aaa 0.30776611  
4  aaa 0.46854928  
5  aaa 0.55232243  
6  bbb 0.17026205  
7  bbb 0.37032054  
8  bbb 0.48377074  
9  bbb 0.54655860  
10 bbb 0.81240262  
11 ccc 0.28035384  
12 ccc 0.39848790  
13 ccc 0.62499648  
14 ccc 0.76255108  
15 ccc 0.88216552 
Run Code Online (Sandbox Code Playgroud)

我想在每个组中添加一个带编号的列.这样做显然不是使用R的权力:

 df$num <- 1  
 for (i in 2:(length(df[,1]))) {  
   if (df[i,"cat"]==df[(i-1),"cat"]) {  
     df[i,"num"]<-df[i-1,"num"]+1  
     }  
 }  
 df  

   cat        val num  
1  aaa 0.05638315   1  
2  aaa 0.25767250   2  
3  aaa 0.30776611   3  
4  aaa 0.46854928   4  
5  aaa 0.55232243   5  
6  bbb 0.17026205   1  
7  bbb 0.37032054   2  
8  bbb 0.48377074   3  
9  bbb 0.54655860   4  
10 bbb 0.81240262   5  
11 ccc 0.28035384   1  
12 ccc 0.39848790   2  
13 ccc 0.62499648   3  
14 ccc 0.76255108   4  
15 ccc 0.88216552   5  
Run Code Online (Sandbox Code Playgroud)

这样做有什么好办法?

mne*_*nel 235

使用ave,ddply,dplyrdata.table:

df$num <- ave(df$val, df$cat, FUN = seq_along)
Run Code Online (Sandbox Code Playgroud)

要么:

library(plyr)
ddply(df, .(cat), mutate, id = seq_along(val))
Run Code Online (Sandbox Code Playgroud)

要么:

library(dplyr)
df %>% group_by(cat) %>% mutate(id = row_number())
Run Code Online (Sandbox Code Playgroud)

或(内存效率最高,因为它通过引用分配DT):

library(data.table)
DT <- data.table(df)

DT[, id := seq_len(.N), by = cat]
DT[, id := rowid(cat)]
Run Code Online (Sandbox Code Playgroud)

  • 值得一提的是,`ave` 在这里给出了一个浮点数而不是一个整数。或者,可以将 `df$val` 更改为 `seq_len(nrow(df))`。我刚刚在这里遇到了这个:http://stackoverflow.com/questions/42796857/r-assign-rank-to-dupicated-ids?noredirect=1#comment72708971_42796857 (4认同)
  • 有趣的是,这个 `data.table` 解决方案似乎比使用 `frank` 更快:`library(microbenchmark); microbenchmark(a = DT[, .(val ,num = frank(val)), by = list(cat)],b =DT[, .(val, id = seq_len(.N)), by = list(cat) )] , 次 = 1000L)` (2认同)
  • 谢谢!`dplyr`解决方案很好。但是,如果像我一样,在尝试这种方法时,您总是遇到奇怪的错误,请确保您没有在`plyr`和`dplyr`之间产生冲突,如[本文中所述](/sf/ 33593791 / dplyr-row-number-rank中的错误)可以通过显式调用`dplyr :: mutate(...)`来避免 (2认同)
  • 另一个`data.table`方法是`setDT(df)[,id:= rleid(val),by =.(cat)]` (2认同)

Jaa*_*aap 23

为了使这个问题更加完整,使用sequence和的基本R替代方案rle:

df$num <- sequence(rle(df$cat)$lengths)
Run Code Online (Sandbox Code Playgroud)

这给出了预期的结果:

> df
   cat        val num
4  aaa 0.05638315   1
2  aaa 0.25767250   2
1  aaa 0.30776611   3
5  aaa 0.46854928   4
3  aaa 0.55232243   5
10 bbb 0.17026205   1
8  bbb 0.37032054   2
6  bbb 0.48377074   3
9  bbb 0.54655860   4
7  bbb 0.81240262   5
13 ccc 0.28035384   1
14 ccc 0.39848790   2
11 ccc 0.62499648   3
15 ccc 0.76255108   4
12 ccc 0.88216552   5
Run Code Online (Sandbox Code Playgroud)

如果df$cat是因子变量,则需要as.character先将其包装:

df$num <- sequence(rle(as.character(df$cat))$lengths)
Run Code Online (Sandbox Code Playgroud)

  • 刚刚注意到,这个解决方案需要对 `cat` 列进行排序吗? (3认同)

tmf*_*mnk 9

dplyr一种可能是:

df %>%
 group_by(cat) %>%
 mutate(num = 1:n())

   cat      val   num
   <fct>  <dbl> <int>
 1 aaa   0.0564     1
 2 aaa   0.258      2
 3 aaa   0.308      3
 4 aaa   0.469      4
 5 aaa   0.552      5
 6 bbb   0.170      1
 7 bbb   0.370      2
 8 bbb   0.484      3
 9 bbb   0.547      4
10 bbb   0.812      5
11 ccc   0.280      1
12 ccc   0.398      2
13 ccc   0.625      3
14 ccc   0.763      4
15 ccc   0.882      5
Run Code Online (Sandbox Code Playgroud)

  • 在某些情况下,如果在操作序列中出现“n()”可能返回“0”的情况,则使用“seq_len(n())”代替“1:n()”更安全,因为`1:0` 给出一个长度为 2 的向量,而 `seq_len(0)` 给出一个长度为零的向量,从而避免了 `mutate()` 的长度不匹配错误。 (4认同)

ali*_*boy 8

这是一个选项,使用for循环按组而不是行(像OP一样)

for (i in unique(df$cat)) df$num[df$cat == i] <- seq_len(sum(df$cat == i))
Run Code Online (Sandbox Code Playgroud)


And*_*rii 6

这是一个小的改进技巧,允许在组内排序“ val”:

# 1. Data set
set.seed(100)
df <- data.frame(
  cat = c(rep("aaa", 5), rep("ccc", 5), rep("bbb", 5)), 
  val = runif(15))             

# 2. 'dplyr' approach
df %>% 
  arrange(cat, val) %>% 
  group_by(cat) %>% 
  mutate(id = row_number())
Run Code Online (Sandbox Code Playgroud)


han*_*101 5

我想data.table使用该rank()函数添加一个变体,它提供了更改排序的额外可能性,从而使其比seq_len()解决方案更灵活,并且非常类似于RDBMS中的row_number函数.

# Variant with ascending ordering
library(data.table)
dt <- data.table(df)
dt[, .( val
   , num = rank(val))
    , by = list(cat)][order(cat, num),]

    cat        val num
 1: aaa 0.05638315   1
 2: aaa 0.25767250   2
 3: aaa 0.30776611   3
 4: aaa 0.46854928   4
 5: aaa 0.55232243   5
 6: bbb 0.17026205   1
 7: bbb 0.37032054   2
 8: bbb 0.48377074   3
 9: bbb 0.54655860   4
10: bbb 0.81240262   5
11: ccc 0.28035384   1
12: ccc 0.39848790   2
13: ccc 0.62499648   3
14: ccc 0.76255108   4

# Variant with descending ordering
dt[, .( val
   , num = rank(-val))
    , by = list(cat)][order(cat, num),]
Run Code Online (Sandbox Code Playgroud)