R:只有当键值相同时,如果密钥在连续的行中重复,如何对行中的值求和？

Question

R:只有当键值相同时,如果密钥在连续的行中重复,如何对行中的值求和？

我有这个结构的以下数据表:

+-------------------+
| id  | key | value |
+-----+-----+-------+
| 1   | A   | 1000  |
| 1   | A   | 2000  |
| 1   | B   | 2001  |
| 1   | A   | 2002  |
| 1   | A   | 2004  |
| 2   | B   | 2002  |
| 2   | C   | 2002  |
+-------------------+

Run Code Online (Sandbox Code Playgroud)

我的目标是通过id和key对值进行求和,而不是仅仅通过id和key进行分组,我只想在连续行的id和key对相同的情况下对值进行求和.

结果应该是:

+-------------------+
| id  | key | value |
+-----+-----+-------+
| 1   | A   | 3000  |
| 1   | B   | 2001  |
| 1   | A   | 4006  |
| 2   | B   | 2002  |
| 2   | C   | 2002  |
+-------------------+

Run Code Online (Sandbox Code Playgroud)

反正有没有达到这个结果？

Answer 1

akr*_*run 8

我们可以使用ie v1.9.5 + rleid的devel版本data.table.安装devel版本的说明是here.

我们将'data.frame'转换为'data.table'.从"key"列创建另一个分组列"ind".通过'id'和'ind'分组,我们得到sum'value'并得到'key'的第一个元素.我们可以将'ind'指定为NULL,因为在预期的输出中不需要它.

library(data.table)
setDT(df1)[,list(value = sum(value), key=key[1L]),
                    by = .(ind=rleid(key), id)][, ind:=NULL][]
#   id value key
#1:  1  3000   A
#2:  1  2001   B
#3:  1  4006   A
#4:  2  2002   B
#5:  2  2002   C

Run Code Online (Sandbox Code Playgroud)

或者正如@Frank建议的那样,我们可以在其中使用mutliple列rleid,将其用作分组变量,获取其他变量和sum'value' 的第一个元素,将不需要的列分配给NULL或使用标准data.table子集with = FALSE.

setDT(df1)[, list(id=id[1L], key=key[1L], value=sum(value)) ,
        by = .(r=rleid(id, key))][, r:= NULL][]
#   id key value
#1:  1   A  3000
#2:  1   B  2001
#3:  1   A  4006
#4:  2   B  2002
#5:  2   C  2002

Run Code Online (Sandbox Code Playgroud)

或者我们可以使用dplyr.我们通过比较'key'的相邻元素来创建分组变量'ind',并获得sum'value'和first'key'元素summarise.

library(dplyr)
df1 %>%
     group_by(ind= cumsum(key!=lag(key, default=TRUE)), id) %>%
     summarise(value=sum(value), key=first(key)) %>% 
     ungroup() %>%
     select(-ind)
#  id value key
#1  1  3000   A
#2  1  2001   B
#3  1  4006   A
#4  2  2002   B
#5  2  2002   C

Run Code Online (Sandbox Code Playgroud)

注意:在dplyr和data.table我们也可以将'key'列作为分组变量并删除key=key[1L]或key=first(key)).

或者我们transform通过创建'ind'列来使用数据集并使用aggregatefrom base R来获得预期的输出

df1 <- transform(df1, ind = cumsum(c(TRUE,head(key,-1)!=tail(key,-1))))
aggregate(value~., df1, FUN=sum)[-3]
#  id key value
#1  1   A  3000
#2  1   B  2001
#3  1   A  4006
#4  2   B  2002
#5  2   C  2002

Run Code Online (Sandbox Code Playgroud)

数据

df1 <- structure(list(id = c(1L, 1L, 1L, 1L, 1L, 2L, 2L), key = c("A", 
"A", "B", "A", "A", "B", "C"), value = c(1000L, 2000L, 2001L, 
2002L, 2004L, 2002L, 2002L)), .Names = c("id", "key", "value"
), class = "data.frame", row.names = c(NA, -7L))

Run Code Online (Sandbox Code Playgroud)

你似乎依赖于`id`排序..？对于它的价值,`rleid`可以采取两个参数,解决这个问题:`DT [,.(id = id [1],key = key [1],value = sum(value)),by =.( R = RLEID(ID,密钥))] [,! "R",与= FALSE]` (4认同)

归档时间：	10 年，5 月前
查看次数：	1437 次
最近记录：	10 年，5 月前