合并具有不同列名的表

Question

合并具有不同列名的表

如果我理解正确,默认情况下,data.table通过比较设置为键并具有相同名称的列来合并两个表.如果我有不同列名的表,我该怎么写？例如:

set.seed(123)
DT1<-data.table(col1=sample(letters,5,replace=TRUE),col2=sample(LETTERS[1:5],5,replace=TRUE),col3=sample(1:2,5,replace=TRUE))
DT2<-data.table(col4=sample(1:3,10,replace=TRUE),col5=sample(LETTERS[1:5],10,replace=TRUE),col6=sample(1:100,10,replace=TRUE))
(DT1)
(DT2)

> (DT1)
   col1 col2 col3
1:    h    A    2
2:    u    C    1
3:    k    E    2
4:    w    C    2
5:    y    C    1
> (DT2)
    col4 col5 col6
 1:    3    D   48
 2:    1    C   76
 3:    1    C   22
 4:    1    B   32
 5:    3    A   24
 6:    3    E   15
 7:    3    E   42
 8:    2    D   42
 9:    3    D   37
10:    2    A   16

Run Code Online (Sandbox Code Playgroud)

我应该写什么DT1[来合并只选择col2 == col5&col3 == col4的行？这是预期的输出:

   col1 col2 col3 col4 col5 col6
    h    A    2    2    A   16
    u    C    1    1    C   76
    u    C    1    1    C   22
    y    C    1    1    C   76
    y    C    1    1    C   22

Run Code Online (Sandbox Code Playgroud)

提前致谢!

Answer 1

Aru*_*run 21

使用data.table的基于子集的连接以及最近实现的on=参数nomatch=0L,这很简单:

DT2[DT1, on=c(col5="col2", col4="col3"), nomatch=0L]

Run Code Online (Sandbox Code Playgroud)

有关更多信息,请参阅二级索引小插图.

或者,如果您使用了data.tables键,那么您可以跳过该on=参数.但是上面的解决方案将是惯用的,因为它保留了原始data.tables的顺序,并且很清楚通过查看代码来判断正在查找哪些列.

setkey(DT1, col2, col3)
setkey(DT2, col5, col4)
DT2[DT1, nomatch=0L]

Run Code Online (Sandbox Code Playgroud)

查看旧版本的历史记录.

归档时间：	12 年，7 月前
查看次数：	4689 次
最近记录：	9 年，5 月前