R - 创建一个新变量,其中每个观察值取决于另一个表和数据框中的其他变量

Yur*_*enu 8 r data.table

我有以下两个表:

df <- data.frame(eth = c("A","B","B","A","C"),ZIP1 = c(1,1,2,3,5))
Inc <- data.frame(ZIP2 = c(1,2,3,4,5,6,7),A = c(56,98,43,4,90,19,59), B = c(49,10,69,30,10,4,95),C = c(69,2,59,8,17,84,30))

eth    ZIP1         ZIP2    A    B    C
A      1            1      56   49   69
B      1            2      98   10   2
B      2            3      43   69   59
A      3            4      4    30   8
C      5            5      90   10   17
                    6      19   4    84
                    7      59   95   39
Run Code Online (Sandbox Code Playgroud)

我想在df数据框中创建一个变量Inc,对于每个观察,该值是观察的eth和ZIP的交集.在我的例子中,它会导致:

   eth    ZIP1   Inc        
    A      1    56
    B      1    49
    B      2    10
    A      3    43
    C      5    17
Run Code Online (Sandbox Code Playgroud)

一个循环或非常强大的力量可以解决它,但我的数据集需要时间,我正在寻找一个更微妙的方式可能使用data.table.在我看来,这是一个非常标准的问题,我很抱歉,如果是,我无法为这个问题制定一个精确的标题(你可能已经注意到了......)也许是我没有找到任何类似问题的原因在论坛上搜索..

谢谢 !

Fra*_*ank 6

当然,它可以在data.table中完成:

library(data.table)
setDT(df)

df[ melt(Inc, id.var="ZIP2", variable.name="eth", value.name="Inc"), 
  Inc := i.Inc
, on=c(ZIP1 = "ZIP2","eth") ]
Run Code Online (Sandbox Code Playgroud)

此"合并分配"操作的语法是X[i, Xcol := expression, on=merge_cols].

您可以单独运行该i = melt(Inc, id.var="ZIP", variable.name="eth", value.name="Inc")部件以查看其工作原理.在合并内部,i可以使用i.*前缀来引用列.


交替...

setDT(df)
setDT(Inc)
df[, Inc := Inc[.(ZIP1), eth, on="ZIP2", with=FALSE], by=eth]
Run Code Online (Sandbox Code Playgroud)

这是建立在类似的想法上的.包装晕影是开始这种语法的好地方.


akr*_*run 6

我们可以使用row/column索引

df$Inc <- Inc[cbind(match(df$ZIP1, Inc$ZIP2), match(df$eth, colnames(Inc)))]

df
#  eth ZIP1 Inc
#1   A    1  56
#2   B    1  49
#3   B    2  10
#4   A    3  43
#5   C    5  17
Run Code Online (Sandbox Code Playgroud)


Dat*_*neR 5

那这个呢?

library(reshape2)
merge(df, melt(Inc, id="ZIP2"), by.x = c("ZIP1", "eth"), by.y = c("ZIP2", "variable"))
  ZIP1 eth value
1    1   A    56
2    1   B    49
3    2   B    10
4    3   A    43
5    5   C    17
Run Code Online (Sandbox Code Playgroud)


Ste*_*pré 5

另外一个选项:

library(dplyr)
library(tidyr)
Inc %>%
  gather(eth, value, -ZIP2) %>%
  left_join(df, ., by = c("eth", "ZIP1" = "ZIP2"))
Run Code Online (Sandbox Code Playgroud)