我有
a <- matrix(c(1,3,4,2,2,6,3,1,6), nrow = 3, ncol=3, byrow=TRUE, dimnames = list(NULL, c("Apples", "Pears", "Oranges")))
Pears Apples Oranges
1 1 3 4
2 2 2 6
3 3 1 6
b <- matrix(c(1,3,2,6,3,6), nrow = 3, ncol=2, byrow=TRUE, dimnames = list(NULL, c( "Pears", "Oranges")))
Pears Oranges
1 1 4
2 2 6
3 3 6
Run Code Online (Sandbox Code Playgroud)
我想合并它们以获得结果:
Pears Apples Oranges
1 1 3 4
2 2 2 6
3 3 1 6
4 1 Na 4
5 2 Na 6
6 3 Na 6
Run Code Online (Sandbox Code Playgroud)
即,按列名称组合它们,留下Na/s,其中第二帧缺少值,对于较大矩阵a的一般情况,较小的矩阵b
rbind不起作用,合并做了一些奇怪的事情.我在追求什么?我也可以使用内存效率最高的东西,因为这最终将会进行很多次,有很多列名.
谢谢,
-N
编辑:当我最初询问时,我可能应该提到这一点,但我实际上想要达到如上所述的确切效果,但有一些非常重要的警告:
我正在使用矩阵
第一个矩阵将始终包含所有和更多的列,而不是第二个
我可能想从包bigmemory创建一个big.matrix.
这里有一个更通用的方法,如果您有多个列a并且b需要添加:
b.toAdd <- setdiff (names(a), names(b))
if (length(b.toAdd))
b[, b.toAdd] <- NA
a.toAdd <- setdiff (names(b), names(a))
if (length(a.toAdd))
a[, a.toAdd] <- NA
rbind(a, b)
Run Code Online (Sandbox Code Playgroud)
刚刚注意到你对需要内存效率的评论.在这种情况下,您可能希望使用,data.table因为使用<-将创建不必要的副本.
data.tableisntead有一个:=显着提高效率的运算符.
library(data.table)
a <- data.table(a)
b <- data.table(b)
if (length(b.toAdd <- setdiff (names(a), names(b))))
b[, c(b.toAdd) := NA]
if (length(a.toAdd <- setdiff (names(b), names(a))))
a[, c(a.toAdd) := NA]
rbind(a, b, use.names=TRUE)
# Pears Apples Oranges
# 1: 1 3 4
# 2: 2 2 6
# 3: 3 1 6
# 4: 1 NA 4
# 5: 2 NA 6
# 6: 3 NA 6
Run Code Online (Sandbox Code Playgroud)
搜索SO [r] data.table benchmarks以了解改进