data.table由多列合并

Question

data.table由多列合并

我对编程很新,也对data.tableR 很新- 所以也许这个问题非常简单,但我搜索过并找不到任何解决方案.

我试图成对匹配4个变量并添加一个具有查找值的列.在基地,我会做merge(df1,df2, by.x=c("lsr","ppr"),by.y=c("li","pro")),df1有9个cols,df2(2个lsr和pro)df2只有3个li,pro和我感兴趣的"价值",alpha.

这很好,但是当我开始成为一个巨大的粉丝时data.table,我想这样做data.table- 因为我有几百万行 - 所以基本合并很慢(我看到,这个by.x和by.y功能是等待data.table,但也许有一个解决方法).请参阅以下示例数据:

df2:
         alpha         li        pro
      1: 0.5000000 0.01666667 0.01666667
      2: 0.3295455 0.03333333 0.01666667
      3: 0.2435897 0.05000000 0.01666667
      4: 0.1917808 0.06666667 0.01666667
      5: 0.1571429 0.08333333 0.01666667
df1:     
          demand rtime    mcv         mck        ppr       mlv         mlk        lsr
      1:    0.3     1 357.57700 0.099326944 0.01666667 558.27267 0.155075741 0.01666667
      2:    0.3    10 548.75433 0.152431759 0.01666667 614.30667 0.170640741 0.03333333
      3:    0.3    11 314.55767 0.087377130 0.01666667 636.48100 0.176800278 0.03333333
      4:    0.3     2 312.15033 0.086708426 0.01666667 677.48100 0.188189167 0.06666667
      5:    0.3     3 454.47867 0.126244074 0.01666667 608.92067 0.169144630 0.01666667
     ---                                                                               
6899196:    0.6     5 537.92673 0.149424093 1.00000000 537.92673 0.149424093 1.00000000
6899197:    0.6     6 277.34732 0.077040923 1.00000000 277.34732 0.077040923 1.00000000
6899198:    0.6     7  73.31484 0.020365235 1.00000000  73.31484 0.020365235 1.00000000
6899199:    0.6     8  32.04197 0.008900546 1.00000000  32.04197 0.008900546 1.00000000
6899200:    0.6     9  14.59008 0.004052799 1.00000000  14.59008 0.004052799 1.00000000

Run Code Online (Sandbox Code Playgroud)

最后,也许有趣的是,在df2我有独特的行,并且在df1,我有很多重复的lsr和ppr.我还尝试设置两个键并按顺序连接它们data.table,并添加一个新列alpha.但没有成功.谢谢你的帮助!

Answer 1

jan*_*cki 18

您可以使用David Arenburg提供的声明评论:

setkey(df1, lsr, ppr)
setkey(df2, li, pro)
df1[df2, alpha := i.alpha]

Run Code Online (Sandbox Code Playgroud)

从当前的devel版本1.9.5开始,我们可以直接执行连接,而无需使用on参数设置密钥:

df1[df2, alpha := i.alpha, on = c(lsr="li", ppr="pro")]

Run Code Online (Sandbox Code Playgroud)

如果您不想安装devel版本,那么您可以等到CRAN上按v1.9.6推送它.

归档时间：	10 年，8 月前
查看次数：	12265 次
最近记录：	7 年，8 月前