如何最好地将data.table的一列与同一data.table的另一列连接?

Chr*_*h_J 10 r data.table

我的数据

我有一个data.table DT,其current(F0YR)和next(F1YR)会计年度末(FYE)编码为整数.由于每个下一个FYE最终将成为当前的FYE,因此整数将在列F1YR和中F0YR.此外,我的数据包含每月观察,因此相同的FYE将多次出现在数据集中:

library(data.table)
DT <- data.table(ID     = rep(c("A", "B"), each=9),
                 MONTH  = rep(100L:108L, times=2),
                 F0YR   = rep(c(1L, 4L, 7L), each=3, times=2),
                 F1YR   = rep(c(4L, 7L, 9L), each=3, times=2),
                 value  = c(rep(1:5, each=3), 6, 6, 7),
                 key    = "ID,F0YR")
DT
      ID MONTH F0YR F1YR value
 [1,]  A   100    1    4     1
 [2,]  A   101    1    4     1
 [3,]  A   102    1    4     1
 [4,]  A   103    4    7     2
 [5,]  A   104    4    7     2
 [6,]  A   105    4    7     2
 [7,]  A   106    7    9     3
 [8,]  A   107    7    9     3
 [9,]  A   108    7    9     3
[10,]  B   100    1    4     4
[11,]  B   101    1    4     4
...
Run Code Online (Sandbox Code Playgroud)

我想做的事

对于每一个IDF1YR组合,我希望得到的价值IDF0YR组合.作为一个例子:公司A具有的值2FOYR==4.现在,我想要一个额外的列用于所有组合,ID=="A"并且F1YR==4在已存在的值1旁边设置为2.

我尝试了什么

intDT <- DT[CJ(unique(ID), unique(F0YR)), list(ID, F0YR, valueNew = value), mult="last"]
setkey(intDT, ID, F0YR)
setkey(DT, ID, F1YR)
DT <- intDT[DT]
setnames(DT, c("F0YR.1", "F0YR"), c("F0YR", "F1YR"))
DT
      ID F1YR valueNew MONTH F0YR value
 [1,]  A    4        2   100    1     1
 [2,]  A    4        2   101    1     1
 [3,]  A    4        2   102    1     1
 [4,]  A    7        3   103    4     2
 [5,]  A    7        3   104    4     2
 [6,]  A    7        3   105    4     2
 [7,]  A    9       NA   106    7     3
 [8,]  A    9       NA   107    7     3
 [9,]  A    9       NA   108    7     3
[10,]  B    4        5   100    1     4
[11,]  B    4        5   101    1     4
...
Run Code Online (Sandbox Code Playgroud)

(注意我mult="last"在这里使用是因为,虽然这些值只会随着F0YR或F1YR的变化而改变,但有时它们不会改变,这只是我的打破).

我想要的是

这看起来很容易.首先,我必须复制我的DT.其次,由于我的连接基本相同data.table,所有列名都有相同的名称,我必须重命名它们.我认为这self join将是前进的方向,但我尝试并尝试过,无法得到一个很好的解决方案.我希望有一些简单的东西,我只是没有看到......有没有人有线索?或者我的数据设置方式实际上很难(可能是因为我有月度观察,但只想加入季度或年度变化值).

Mat*_*wle 6

在这样的用例中,口头禅"首先聚合,然后加入"通常会有所帮助.所以,从你的开始DT,并使用v1.8.1:

> agg = DT[,last(value),by=list(ID,F0YR)]
> agg
   ID F0YR V1
1:  A    1  1
2:  A    4  2
3:  A    7  3
4:  B    1  4
5:  B    4  5
6:  B    7  7
Run Code Online (Sandbox Code Playgroud)

我打电话给它agg是因为我想不出更好的名字.在这种情况下,你想要last的并不是真正的聚合,但是你知道我的意思.

然后DT按组参考更新.我们在这里分组i.

setkey(DT,ID,F1YR)
DT[agg,newcol:=V1]
    ID MONTH F0YR F1YR value newcol
 1:  A   100    1    4     1      2
 2:  A   101    1    4     1      2
 3:  A   102    1    4     1      2
 4:  A   103    4    7     2      3
 5:  A   104    4    7     2      3
 6:  A   105    4    7     2      3
 7:  A   106    7    9     3     NA
 8:  A   107    7    9     3     NA
 9:  A   108    7    9     3     NA
10:  B   100    1    4     4      5
11:  B   101    1    4     4      5
12:  B   102    1    4     4      5
13:  B   103    4    7     5      7
14:  B   104    4    7     5      7
15:  B   105    4    7     5      7
16:  B   106    7    9     6     NA
17:  B   107    7    9     6     NA
18:  B   108    7    9     7     NA
Run Code Online (Sandbox Code Playgroud)

是对的吗?不确定我是否完全遵循.那些操作应该非常快,没有任何副本,并且应该扩展到大数据.至少,这是意图.

  • @Christoph_J很棒.不,`:=`永远不会重命名列.`setnames()`重命名列.`:=`通过引用现有列或新列进行分配.您可能缺少的部分是`i`中的非连接列(即不参与连接的列,在本例中为'V1`)可以在`j`中使用,这要归功于连接继承范围.尝试删除`newcol:=`位而不是看到它.或者研究`#addin inherited scope`的`?data.table`中的例子.`DT [agg]`为无匹配返回`NA`s.`:=`另一方面通过引用更新`DT`; 当`i`行在`DT`中没有匹配时,没有什么可以更新的. (2认同)