poi*_*rez 4 r summarization data.table
我有两个data.tables.我想计算与另一个表中的表的组合匹配的行数.我检查了data.table文档,但我没有找到答案.我正在使用data.table 1.9.2.
DT1 <- data.table(a=c(3,2), b=c(8,3))
DT2 <- data.table(w=c(3,3,3,2,3), x=c(8,8,8,3,7), z=c(2,6,7,2,2))
DT1
# a b
# 1: 3 8
# 2: 2 3
DT2
# w x z
# 1: 3 8 2
# 2: 3 8 6
# 3: 3 8 7
# 4: 2 3 2
# 5: 3 7 2
Run Code Online (Sandbox Code Playgroud)
现在我想计算DT2中(3,8)对和(2,3)对的数量.
setkey(DT2, w, x)
nrow(DT2[J(3, 8), nomatch=0])
# [1] 3 ## OK !
nrow(DT2[J(2, 3), nomatch=0])
# [1] 1 ## OK !
DT1[,count_combination_in_dt2 := nrow(DT2[J(a, b), nomatch=0])]
DT1
# a b count_combination_in_dt2
# 1: 3 8 4 ## not ok.
# 2: 2 3 4 ## not ok.
Run Code Online (Sandbox Code Playgroud)
预期结果:
# a b count_combination_in_dt2
# 1: 3 8 3
# 2: 2 3 1
Run Code Online (Sandbox Code Playgroud)
edd*_*ddi 12
setkey(DT2, w, x)
DT2[DT1, .N, by = .EACHI]
# w x N
#1: 3 8 3
#2: 2 3 1
# In versions <= 1.9.2, use DT2[DT1, .N] instead
Run Code Online (Sandbox Code Playgroud)
上面简单地做合并和计数行用于由定义的每个组的数量i-expression,从而by = .EACHI.
您只需要添加by=list(a,b).
DT1[,count_combination_in_dt2:=nrow(DT2[J(a,b),nomatch=0]), by=list(a,b)]
DT1
##
## a b count_combination_in_dt2
## 1: 3 8 3
## 2: 2 3 1
Run Code Online (Sandbox Code Playgroud)
编辑:更多详细信息:在您的原始版本中,您使用了DT2[DT1, nomatch=0](因为您使用了所有a, b组合。如果您想单独使用J(a,b)每个a, b组合,则需要使用by参数。然后data.table将 分组a, b并nrow(...)在每个组中评估。
| 归档时间: |
|
| 查看次数: |
3144 次 |
| 最近记录: |