根据R中的前一行按顺序分配值

Question

根据R中的前一行按顺序分配值

我有这样的数据表.

  ID1 ID2 member
1   a   x parent
2   a   y  child
3   a   z parent
4   a   p  child
5   a   q  child
6   b   x parent
7   b   z parent
8   b   q  child

Run Code Online (Sandbox Code Playgroud)

我想分配一个如下的序列.

  ID1 ID2 member sequence
1   a   x parent        1
2   a   y  child        2
3   a   z parent        1
4   a   p  child        2
5   a   q  child        3
6   b   x parent        1
7   b   z parent        1
8   b   q  child        2

Run Code Online (Sandbox Code Playgroud)

即

> dt$sequence = 1, wherever dt$member == "parent"

> dt$sequence = previous_row_value + 1, wherever dt$member=="child"

Run Code Online (Sandbox Code Playgroud)

截至目前,我一直在使用循环,如下所示.

dt_sequence <- dt[ ,sequencing(.SD), by="ID1"]

sequencing <- function(dt){
  for(i in 1:nrow(dt)){
    if(i == 1){
      dt$sequence[i] = 1
      next
    }
    if(dt[i,member] %in% "child"){
      dt$sequence[i] = as.numeric(dt$sequence[i-1]) + 1
    }
    else
      dt$sequence[i] = 1
  }
  return(dt)
}

Run Code Online (Sandbox Code Playgroud)

我在40万行的数据表上运行此代码,并且需要花费大量时间才能完成(大约15分钟).任何人都可以建议更快的方式来做到这一点.

Answer 1

Sve*_*ein 6

这是一种方式seq:

dt[ , sequence := seq(.N), by = cumsum(member == "parent")]

#    ID1 ID2 member sequence
# 1:   a   x parent        1
# 2:   a   y  child        2
# 3:   a   z parent        1
# 4:   a   p  child        2
# 5:   a   q  child        3
# 6:   b   x parent        1
# 7:   b   z parent        1
# 8:   b   q  child        2

Run Code Online (Sandbox Code Playgroud)

这个怎么运作？

该命令member == "parent"创建一个逻辑向量.该函数cumsum用于计算累积和.在这种情况下,它创建向量,其中父对象和后续子对象具有相同的数字.该向量用于分组.最后,seq(.N)创建一个从1到组中元素数量的序列.

归档时间：	10 年，11 月前
查看次数：	771 次
最近记录：	10 年，4 月前