我有两个矢量e和g.我想知道每个元素中元素e的百分比g是否较小.在R中实现这一点的一种方法是:
set.seed(21)
e <- rnorm(1e4)
g <- rnorm(1e4)
mf <- function(p,v) {100*length(which(v<=p))/length(v)}
mf.out <- sapply(X=e, FUN=mf, v=g)
Run Code Online (Sandbox Code Playgroud)
使用大型e或者g,这需要花费大量时间来运行.如何更改或修改此代码以使其运行更快?
注意:mf上面的函数基于messdismo包中函数的代码.
这么慢的原因是因为你正在调用你的函数length(e)时间.它对小向量没有很大的影响,但R函数调用的开销实际上开始加起来更大的向量.
通常,您需要将其移动到已编译的代码,但幸运的是,您可以使用findInterval:
set.seed(21)
e <- rnorm(1e4)
g <- rnorm(1e4)
O <- findInterval(e,sort(g))/length(g)
# Now for some timings:
f <- function(p,v) mean(v<=p)
system.time(o <- sapply(e, f, g))
# user system elapsed
# 0.95 0.03 0.98
system.time(O <- findInterval(e,sort(g))/length(g))
# user system elapsed
# 0 0 0
identical(o,O) # may be FALSE
all.equal(o,O) # should be TRUE
# How fast is this on large vectors?
set.seed(21)
e <- rnorm(1e7)
g <- rnorm(1e7)
system.time(O <- findInterval(e,sort(g))/length(g))
# user system elapsed
# 22.08 0.08 22.31
Run Code Online (Sandbox Code Playgroud)