使用 data.table 优化分组依据

Question

使用 data.table 优化分组依据

我想知道当我使用group by. 这是一个简化的示例：

dt = data.table(iris)
dt[,.(
  # .N, 
  # sum_len = sum(Sepal.Length), 
  avg_len   = sum(Sepal.Length)/.N,
  var_len   = sum(Sepal.Length^2)/.N - (sum(Sepal.Length)/.N)^2
),by=  "Species"]

Run Code Online (Sandbox Code Playgroud)

在这里我要重复使用sum(Sepal.Length)和.N无需重新计算。

编辑：一个更完整的例子是我们也在使用.SD：

dt[,c(lapply(.SD, mean),lapply(.SD, var)),by="Species",.SDcols = c("Sepal.Length", "Sepal.Width")]

Run Code Online (Sandbox Code Playgroud)

Answer 1

akr*_*run 5

一种选择是首先使用{}并创建汇总变量 ('tmp')，然后将其用于进一步计算

dt[, {
         tmp <- sum(Sepal.Length)/.N
         tmp2 <- sum(Sepal.Length^2)/.N 
        .(avg_len = tmp, var_len = tmp2 -(tmp)^2)
     }, 
        by = Species]
#     Species avg_len  var_len
#1:     setosa   5.006 0.121764
#2: versicolor   5.936 0.261104
#3:  virginica   6.588 0.396256

Run Code Online (Sandbox Code Playgroud)

注意

tmp <- sum(Sepal.Length)/.N
tmp2 <- sum(Sepal.Length^2)/.N

Run Code Online (Sandbox Code Playgroud)

等于

tmp <- mean(Sepal.Length)
tmp2 <- mean(Sepal.Length^2)

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，5 月前
查看次数：	61 次
最近记录：	6 年，5 月前