R - 对数据进行分组，但对不同的列应用不同的函数

Question

R - 对数据进行分组，但对不同的列应用不同的函数

我想对这些数据进行分组，但在分组时对某些列应用不同的函数。

ID  type isDesc isImage
1   1    1      0
1   1    0      1
1   1    0      1
4   2    0      1
4   2    1      0
6   1    1      0
6   1    0      1
6   1    0      0

Run Code Online (Sandbox Code Playgroud)

我想按ID, 列分组isDesc并且isImage可以求和，但我想按原样获得 type 的值。type整个数据集都是一样的。结果应如下所示：

ID  type isDesc isImage
1   1    1      2
4   2    1      1
6   1    1      1

Run Code Online (Sandbox Code Playgroud)

目前我正在使用

library(plyr)
summarized = ddply(data, .(ID), numcolwise(sum))

Run Code Online (Sandbox Code Playgroud)

但它只是总结了所有列。你不必使用，ddply但如果你认为它对工作有好处，我想坚持下去。data.table图书馆也是一种选择

Answer 1

Aru*_*run 6

使用data.table：

require(data.table)
dt <- data.table(data, key="ID")
dt[, list(type=type[1], isDesc=sum(isDesc), 
                  isImage=sum(isImage)), by=ID]

#    ID type isDesc isImage
# 1:  1    1      1       2
# 2:  4    2      1       1
# 3:  6    1      1       1

Run Code Online (Sandbox Code Playgroud)

使用plyr：

ddply(data , .(ID), summarise, type=type[1], isDesc=sum(isDesc), isImage=sum(isImage))
#   ID type isDesc isImage
# 1  1    1      1       2
# 2  4    2      1       1
# 3  6    1      1       1

Run Code Online (Sandbox Code Playgroud)

编辑：使用data.table's .SDcols，您可以这样做，以防您有太多要求和的列，而其他列只取第一个值。

dt1 <- dt[, lapply(.SD, sum), by=ID, .SDcols=c(3,4)]
dt2 <- dt[, lapply(.SD, head, 1), by=ID, .SDcols=c(2)]
> dt2[dt1]
#    ID type isDesc isImage
# 1:  1    1      1       2
# 2:  4    2      1       1
# 3:  6    1      1       1

Run Code Online (Sandbox Code Playgroud)

您可以提供列名或列号作为 .SDcols 的参数。例如：.SDcols=c("type")也是有效的。

归档时间：	12 年，11 月前
查看次数：	1328 次
最近记录：	12 年，11 月前