如果表具有不同的长度,如何将几个表中的列的值相加？

Question

如果表具有不同的长度,如何将几个表中的列的值相加？

好吧,这应该是一个简单的,但我正在寻找一个尽可能快的解决方案.

假设我有3个表(表的数量会大得多):

tab1 <- table(c(1, 1, 1, 2, 2, 3, 3, 3))
tab2 <- table(c(1, 1, 4, 4, 4))
tab3 <- table(c(1, 1, 2, 3, 5))

Run Code Online (Sandbox Code Playgroud)

这就是我们得到的:

Run Code Online (Sandbox Code Playgroud)

我希望以快速的方式拥有它以便它适用于许多大表是:

1 2 3 4 5
7 3 4 3 1

Run Code Online (Sandbox Code Playgroud)

所以,基本上这些表聚合在一起names.是否有基本功能可以解决这个问题？谢谢你的帮助!

Answer 1

akr*_*run 12

我们连接(c)tab输出以创建'v1',用于tapply获取sum按names该对象分组的元素.

v1 <- c(tab1, tab2, tab3)
tapply(v1, names(v1), FUN=sum)
#1 2 3 4 5 
#7 3 4 3 1

Run Code Online (Sandbox Code Playgroud)

@akrun - 很好的答案和很好的数据表建议.基准如下 (2认同)

Answer 2

Ric*_*ven 5

你可以用rowsum().输出与您显示的输出略有不同,但您可以在计算后重新进行重组.rowsum()众所周知,效率很高.

x <- c(tab1, tab2, tab3)
rowsum(x, names(x))
#   [,1]
# 1    7
# 2    3
# 3    4
# 4    3
# 5    1

Run Code Online (Sandbox Code Playgroud)

这里是akrun的data.table建议的基准.

library(microbenchmark)
library(data.table)

xx <- rep(x, 1e5)

microbenchmark(
    tapply = tapply(xx, names(xx), FUN=sum),
    rowsum = rowsum(xx, names(xx)),
    data.table = data.table(xx, names(xx))[, sum(xx), by = V2]
)
# Unit: milliseconds
#        expr       min        lq      mean    median        uq       max neval
#      tapply 150.47532 154.80200 176.22410 159.02577 204.22043 233.34346   100
#      rowsum  41.28635  41.65162  51.85777  43.33885  45.43370 109.91777   100
#  data.table  21.39438  24.73580  35.53500  27.56778  31.93182  92.74386   100

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，7 月前
查看次数：	134 次
最近记录：	10 年，4 月前