您应该如何使用data.table'by'参数创建多列数据?

and*_*rew 2 r data.table

我使用data.table的by参数创建了很多列.以下是我将用于说明问题的一些示例数据.

> dt <- data.table(x=runif(10), group=c(1,1,1,1,1,2,2,2,2,2))
> dt
            x group
 1: 0.0488727     1
 2: 0.3087102     1
 3: 0.8107115     1
 4: 0.7368206     1
 5: 0.2941478     1
 6: 0.5221693     2
 7: 0.2505612     2
 8: 0.2730681     2
 9: 0.2098595     2
10: 0.4512163     2
Run Code Online (Sandbox Code Playgroud)

我想使用"by"参数为每组数据做一些摘要统计.一种选择是将它们全部分配给以下列中的列dt:

> dt[, max:=max(x), by=group]
> dt[, min:=min(x), by=group]
> dt[, mean:=mean(x), by=group]
> dt[, median:=median(x), by=group]
> dt
            x group       max       min      mean    median
 1: 0.0488727     1 0.8107115 0.0488727 0.4398526 0.3087102
 2: 0.3087102     1 0.8107115 0.0488727 0.4398526 0.3087102
 3: 0.8107115     1 0.8107115 0.0488727 0.4398526 0.3087102
 4: 0.7368206     1 0.8107115 0.0488727 0.4398526 0.3087102
 5: 0.2941478     1 0.8107115 0.0488727 0.4398526 0.3087102
 6: 0.5221693     2 0.5221693 0.2098595 0.3413749 0.2730681
 7: 0.2505612     2 0.5221693 0.2098595 0.3413749 0.2730681
 8: 0.2730681     2 0.5221693 0.2098595 0.3413749 0.2730681
 9: 0.2098595     2 0.5221693 0.2098595 0.3413749 0.2730681
10: 0.4512163     2 0.5221693 0.2098595 0.3413749 0.2730681
Run Code Online (Sandbox Code Playgroud)

这很糟糕,因为您创建了包含大量不必要重复元素的列.我不知道将数据崩溃的合理方法.

另一种方法是将每个结果放入一个单独的data.table中,然后将它们合并在一起:

> a<-dt[, max(x), by=group]
> b<-dt[, min(x), by=group]
> c<-dt[, mean(x), by=group]
> d<-dt[, median(x), by=group]
> setnames(a, "V1", "max")
> setnames(b, "V1", "min")
> setnames(c, "V1", "mean")
> setnames(d, "V1", "median")
> setkeyv(a, "group")
> setkeyv(b, "group")
> setkeyv(c, "group")
> setkeyv(d, "group")
> dt.summary.stats -> a[b][c][d]
> dt.summary.stats
   group       max       min      mean    median
1:     1 0.8107115 0.0488727 0.4398526 0.3087102
2:     2 0.5221693 0.2098595 0.3413749 0.2730681
Run Code Online (Sandbox Code Playgroud)

dt.summary.stats包含我想要的结果,但这感觉就像是一种非常愚蠢的方式.这样做的正确方法是什么?

edd*_*ddi 7

干得好:

dt[, list(max = max(x), min = min(x), mean = mean(x), median = median(x)),
     by = group]
#   group       max        min      mean    median
#1:     1 0.8185661 0.02120035 0.3277341 0.1721039
#2:     2 0.9243562 0.28941571 0.6137555 0.5826848
Run Code Online (Sandbox Code Playgroud)

或者只是使用summary:

dt[, as.list(summary(x)), by = group]
#   group   Min. 1st Qu. Median   Mean 3rd Qu.   Max.
#1:     1 0.0212  0.1517 0.1721 0.3277  0.4751 0.8186
#2:     2 0.2894  0.4243 0.5827 0.6138  0.8480 0.9244
Run Code Online (Sandbox Code Playgroud)