加入并求和不兼容的矩阵

leo*_*ido 7 merge join r matrix data.table

我的目标是使用(并保留)行和列名称"求和"两个不兼容的矩阵(具有不同维度的矩阵).

我已经想到了这种方法:将矩阵转换为data.table对象,连接它们然后对列向量求和.

一个例子:

> M1
  1 3 4 5 7 8
1 0 0 1 0 0 0
3 0 0 0 0 0 0
4 1 0 0 0 0 0
5 0 0 0 0 0 0
7 0 0 0 0 1 0
8 0 0 0 0 0 0
> M2
  1 3 4 5 8
1 0 0 1 0 0
3 0 0 0 0 0
4 1 0 0 0 0
5 0 0 0 0 0
8 0 0 0 0 0
> M1 %ms% M2
  1 3 4 5 7 8
1 0 0 2 0 0 0
3 0 0 0 0 0 0
4 2 0 0 0 0 0
5 0 0 0 0 0 0
7 0 0 0 0 1 0
8 0 0 0 0 0 0
Run Code Online (Sandbox Code Playgroud)

这是我的代码:

M1 <- matrix(c(0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0), byrow = TRUE, ncol = 6)
colnames(M1) <- c(1,3,4,5,7,8)
M2 <- matrix(c(0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0), byrow = TRUE, ncol = 5)
colnames(M2) <- c(1,3,4,5,8)
# to data.table objects
DT1 <- data.table(M1, keep.rownames = TRUE, key = "rn")
DT2 <- data.table(M2, keep.rownames = TRUE, key = "rn")
# join and sum of common columns
if (nrow(DT1) > nrow(DT2)) {
    A <- DT2[DT1, roll = TRUE]
    A[, list(X1 = X1 + X1.1, X3 = X3 + X3.1, X4 = X4 + X4.1, X5 = X5 + X5.1, X7, X8 = X8 + X8.1), by = rn]
}
Run Code Online (Sandbox Code Playgroud)

那输出:

   rn X1 X3 X4 X5 X7 X8
1:  1  0  0  2  0  0  0
2:  3  0  0  0  0  0  0
3:  4  2  0  0  0  0  0
4:  5  0  0  0  0  0  0
5:  7  0  0  0  0  1  0
6:  8  0  0  0  0  0  0
Run Code Online (Sandbox Code Playgroud)

然后,我可以回到这个转换data.tablematrix和修复的行和列名.

问题是:

  • 如何推广这个程序?

    我需要一种自动创建的方法,list(X1 = X1 + X1.1, X3 = X3 + X3.1, X4 = X4 + X4.1, X5 = X5 + X5.1, X7, X8 = X8 + X8.1)因为我想将此函数应用于矩阵,而这些维度(和行/列名称)事先是未知的.

    总之,我需要一个行为如上所述的合并过程.

  • 还有其他策略/实现可以实现同一目标,同时更快更广泛吗?(希望有些data.table怪物帮助我)

  • 什么样的连接(内部,外部等)可以同化这个程序?

提前致谢.

ps:我正在使用data.table版本1.8.2


编辑 - 解决方案

@Aaron解决方案.没有外部库,只有基础R.它也适用于矩阵列表.

add_matrices_1 <- function(...) {
  a <- list(...)
  cols <- sort(unique(unlist(lapply(a, colnames))))
  rows <- sort(unique(unlist(lapply(a, rownames))))
  out <- array(0, dim = c(length(rows), length(cols)), dimnames = list(rows,cols))
  for (m in a) out[rownames(m), colnames(m)] <- out[rownames(m), colnames(m)] + m
  out
}
Run Code Online (Sandbox Code Playgroud)

@MadScone解决方案.使用reshape2包.它每次调用仅适用于两个矩阵.

add_matrices_2 <- function(m1, m2) {
  m <- acast(rbind(melt(M1), melt(M2)), Var1~Var2, fun.aggregate = sum)
  mn <- unique(colnames(m1), colnames(m2))
  rownames(m) <- mn
  colnames(m) <- mn
  m
}
Run Code Online (Sandbox Code Playgroud)

@Aaron解决方案.使用Matrix包.它仅适用于稀疏矩阵,也适用于它们的列表.

add_matrices_3 <- function(...) {
  a <- list(...)
  cols <- sort(unique(unlist(lapply(a, colnames))))
  rows <- sort(unique(unlist(lapply(a, rownames))))
  nrows <- length(rows)
  ncols <- length(cols)
  newms <- lapply(a, function(m) {
    s <- summary(m)
    i <- match(rownames(m), rows)[s$i]
    j <- match(colnames(m), cols)[s$j]
    ilj <- i < j
    sparseMatrix(
      i         = ifelse(ilj, i, j),
      j         = ifelse(ilj, j, i),
      x         = s$x,
      dims      = c(nrows, ncols),
      dimnames  = list(rows, cols),
      symmetric = TRUE
    )
  })
  Reduce(`+`, newms)
}
Run Code Online (Sandbox Code Playgroud)

BENCHMARK(100 microbenchmark包运行)

Unit: microseconds
   expr                min         lq    median         uq       max
1 add_matrices_1   196.009   257.5865   282.027   291.2735   549.397
2 add_matrices_2 13737.851 14697.9790 14864.778 16285.7650 25567.448
Run Code Online (Sandbox Code Playgroud)

无需评论基准:@Aaron解决方案获胜.

细节

有关性能的见解(取决于矩阵的大小和稀疏性),请参阅@Aaron的编辑(以及稀疏矩阵的解决方案:) add_matrices_3.

Aar*_*ica 5

我只是将这些名字排成一行,然后带着基地R去城里.

这是一个简单的函数,它接受一个未指定数量的矩阵,并按行/列名称添加它们.

add_matrices_1 <- function(...) {
  a <- list(...)
  cols <- sort(unique(unlist(lapply(a, colnames))))
  rows <- sort(unique(unlist(lapply(a, rownames))))
  out <- array(0, dim=c(length(rows), length(cols)), dimnames=list(rows,cols))
  for(M in a) { out[rownames(M), colnames(M)] <- out[rownames(M), colnames(M)] + M }
  out
}
Run Code Online (Sandbox Code Playgroud)

它然后像这样工作:

# giving them rownames and colnames
colnames(M1) <- rownames(M1) <- c(1,3,4,5,7,8)
colnames(M2) <- rownames(M2) <- c(1,3,4,5,8)

add_matrices_1(M1, M2)
#   1 3 4 5 7 8
# 1 0 0 2 0 0 0
# 3 0 0 0 0 0 0
# 4 2 0 0 0 0 0
# 5 0 0 0 0 0 0
# 7 0 0 0 0 1 0
# 8 0 0 0 0 0 0
Run Code Online (Sandbox Code Playgroud)

然而,对于更大的矩阵,它并没有那么好.这是一个函数来制作矩阵,nN可能性中选择列,并k用非零值填充点.(这假设是对称矩阵.)

makeM <- function(N, n, k) {
  s1 <- sample(N, n)
  M1 <- array(0, dim=c(n,n), dimnames=list(s1, s1))
  r1 <- sample(n,k, replace=TRUE)
  c1 <- sample(n,k, replace=TRUE)
  M1[cbind(c(r1,c1), c(c1,r1))] <- sample(N,k)
  M1
}
Run Code Online (Sandbox Code Playgroud)

然后这是另一个使用稀疏矩阵的版本.

add_matrices_3 <- function(...) {
  a <- list(...)
  cols <- sort(unique(unlist(lapply(a, colnames))))
  rows <- sort(unique(unlist(lapply(a, rownames))))
  nrows <- length(rows)
  ncols <- length(cols)
  newms <- lapply(a, function(m) {
    s <- summary(m)
    i <- match(rownames(m), rows)[s$i]
    j <- match(colnames(m), cols)[s$j]
    ilj <- i<j
    sparseMatrix(i=ifelse(ilj, i, j),
                 j=ifelse(ilj, j, i),
                 x=s$x,
                 dims=c(nrows, ncols),
                 dimnames=list(rows, cols), symmetric=TRUE)
  })
  Reduce(`+`, newms)
}
Run Code Online (Sandbox Code Playgroud)

当矩阵很大且稀疏时,这个版本肯定更快.(请注意,我没有计算转换为稀疏对称矩阵,希望如果这是一个合适的格式,您将在整个代码中使用该格式.)

set.seed(50)
M1 <- makeM(10000, 5000, 50)
M2 <- makeM(10000, 5000, 50)
mm2 <- Matrix(M2)
mm1 <- Matrix(M1)
system.time(add_matrices_1(M1, M2))
#   user  system elapsed 
#  2.987   0.841   4.133 
system.time(add_matrices_3(mm1, mm2))
#   user  system elapsed 
#  0.042   0.012   0.504 
Run Code Online (Sandbox Code Playgroud)

但是当矩阵很小时,我的第一个解决方案仍然更快.

set.seed(50)
M1 <- makeM(100, 50, 20)
M2 <- makeM(100, 50, 20)
mm2 <- Matrix(M2)
mm1 <- Matrix(M1)
microbenchmark(add_matrices_1(M1, M2), add_matrices_3(mm1, mm2))
# Unit: microseconds
#                       expr      min       lq   median        uq       max
# 1   add_matrices_1(M1, M2)  398.495  406.543  423.825  544.0905  43077.27
# 2 add_matrices_3(mm1, mm2) 5734.623 5937.473 6044.007 6286.6675 509584.24
Run Code Online (Sandbox Code Playgroud)

故事的道德:大小和稀疏性很重要.

而且,正确的做法比节省几微秒更重要.除非遇到麻烦,否则几乎总是最好使用简单的功能,不要担心速度.所以在小的情况下,我更喜欢MadScone的解决方案,因为它易于编码且易于理解.当它变慢时,我会写一个像我第一次尝试的功能.当它变慢时,我会写一个像我第二次尝试的功能.