data.table有效替代分组赋值为DT [,x:= f(y),by = z]？

Question

data.table有效替代分组赋值为DT [,x:= f(y),by = z]？

我正在寻找一个尚未实现(据我所知)通过引用在data.table中按组分配的最佳替代方案.使用data.table示例,

DT = data.table(x=rep(c("a","b","c"),each=3), y=c(1,3,6), v=1:9)
     x y v
[1,] a 1 1
[2,] a 3 2
[3,] a 6 3
[4,] b 1 4
[5,] b 3 5
[6,] b 6 6
[7,] c 1 7
[8,] c 3 8
[9,] c 6 9

Run Code Online (Sandbox Code Playgroud)

我想添加一个新的列z,包含按x的值分组的f(y,v)(让我们取f(y,v)= mean(y)+ v).请注意,我不想打印或存储此计算的结果,如

DT[,mean(y)+v,by=x]
      x        V1
 [1,] a  4.333333
 [2,] a  5.333333
 [3,] a  6.333333
 [4,] b  7.333333
 [5,] b  8.333333
 [6,] b  9.333333
 [7,] c 10.333333
 [8,] c 11.333333
 [9,] c 12.333333

Run Code Online (Sandbox Code Playgroud)

但我想将结果添加到DT:

     x y v        V1
[1,] a 1 1  4.333333
[2,] a 3 2  5.333333
[3,] a 6 3  6.333333
[4,] b 1 4  7.333333
[5,] b 3 5  8.333333
[6,] b 6 6  9.333333
[7,] c 1 7 10.333333
[8,] c 3 8 11.333333
[9,] c 6 9 12.333333

Run Code Online (Sandbox Code Playgroud)

我的data.table有262 MB,这样

DT <- DT[,transform(.SD,mean(y)+v),by=x]

Run Code Online (Sandbox Code Playgroud)

不是一个选项,因为我无法在内存中使用DT两次(我认为这是复制操作所暗示的).事实是我从未见过那个操作完成.

我有什么替代方案(直到data.table附带DT [,z:= mean(y)+ v,by = x])？

我刚看了DT [newDT].这有什么不对？

newDT <- DT[,mean(y)+v,by=x]
      x        V1
 [1,] a  4.333333
 [2,] a  5.333333
 [3,] a  6.333333
 [4,] b  7.333333
 [5,] b  8.333333
 [6,] b  9.333333
 [7,] c 10.333333
 [8,] c 11.333333
 [9,] c 12.333333

Run Code Online (Sandbox Code Playgroud)

(这是可行的记忆.)然后:

> DT[newDT]
setkey(DT,x)
setkey(newDT,x)
x y v        V1
a 1 1  4.333333
a 3 2  4.333333
a 6 3  4.333333
a 1 1  5.333333
a 3 2  5.333333
a 6 3  5.333333
a 1 1  6.333333
a 3 2  6.333333
a 6 3  6.333333
b 1 4  7.333333
b 3 5  7.333333
b 6 6  7.333333
b 1 4  8.333333
b 3 5  8.333333
b 6 6  8.333333
b 1 4  9.333333
b 3 5  9.333333
b 6 6  9.333333
c 1 7 10.333333
c 3 8 10.333333
c 6 9 10.333333
c 1 7 11.333333
c 3 8 11.333333
c 6 9 11.333333
c 1 7 12.333333
c 3 8 12.333333
c 6 9 12.333333

Run Code Online (Sandbox Code Playgroud)

但这不是我想要的.这里的错误是什么？

Answer 1

42-*_*42- 4

DT[, xm := ave(y, x, FUN=mean) + v]

Run Code Online (Sandbox Code Playgroud)

归档时间：	13 年，9 月前
查看次数：	546 次
最近记录：	13 年，9 月前