R:摆脱for循环和加速代码

min*_*nem 6 performance loops r matrix

我想加快我的计算并获得结果而不使用函数循环m.可重复的例子:

N <- 2500
n <- 500
r <- replicate(1000, sample(N, n))

m <- function(r, N) {
  ic <- matrix(0, nrow = N, ncol = N)
  for (i in 1:ncol(r)) { 
    p <- r[, i]
    ic[p, p] <- ic[p, p] + 1
  }
  ic
}

system.time(ic <- m(r, N))
#  user  system elapsed 
#  6.25    0.51    6.76 
isSymmetric(ic)
# [1] TRUE
Run Code Online (Sandbox Code Playgroud)

在循环的每次迭代中,for我们都处理矩阵而不是向量,那么如何进行矢量化?

@ joel.wilson此函数的目的是计算元素的成对频率.所以之后我们可以估计成对包含概率.

感谢@Khashaa和@alexis_laz.基准:

> require(rbenchmark)
> benchmark(m(r, N),
+           m1(r, N),
+           mvec(r, N),
+           alexis(r, N),
+           replications = 10, order = "elapsed")
          test replications elapsed relative user.self sys.self user.child sys.child
4 alexis(r, N)           10    4.73    1.000      4.63     0.11         NA        NA
3   mvec(r, N)           10    5.36    1.133      5.18     0.18         NA        NA
2     m1(r, N)           10    5.48    1.159      5.29     0.19         NA        NA
1      m(r, N)           10   61.41   12.983     60.43     0.90         NA        NA
Run Code Online (Sandbox Code Playgroud)

Kha*_*haa 6

这应该明显更快,因为它避免了双索引操作

m1 <- function(r, N) {
  ic <- matrix(0, nrow = N, ncol=ncol(r))
  for (i in 1:ncol(r)) { 
    p <- r[, i]
    ic[, i][p] <- 1
  }
  tcrossprod(ic)
}

system.time(ic1 <- m1(r, N))
#   user  system elapsed 
#   0.53    0.01    0.55  

all.equal(ic, ic1)
# [1] TRUE
Run Code Online (Sandbox Code Playgroud)

简单的"计数/添加"操作几乎总是可以进行矢量化

mvec <- function(r, N) {
  ic <- matrix(0, nrow = N, ncol=ncol(r))
  i <- rep(1:ncol(r), each=nrow(r))
  ic[cbind(as.vector(r), i)] <- 1
  tcrossprod(ic)
}
Run Code Online (Sandbox Code Playgroud)