为什么这个Rcpp代码慢于字节编译R?

los*_*est 5 c++ performance numerical r rcpp

正如问题标题所示,我想知道为什么编译R代码(使用compiler::cmpfun)的字节比以下数学函数的等效Rcpp代码更快:

func1 <- function(alpha, tau, rho, phi) {
     abs((alpha + 1)^(tau) * phi - rho * (1- (1 + alpha)^(tau))/(1 - (1 + alpha)))
}
Run Code Online (Sandbox Code Playgroud)

由于这是一个简单的数值运算,我原本期望Rcpp(funcCppfuncCpp2)比编译的R(func1cfunc2c)字节快得多,特别是因为R会有更多的开销用于存储(1+alpha)**tau或需要重新计算它.事实上,计算这个指数两次似乎比R(func1cvs func2c)中的内存分配更快,这似乎特别违反直觉,因为n它很大.我的另一个猜测是,也许compiler::cmpfun是在扯掉一些魔法,但我想知道是否确实如此.

真的,我想知道的两件事是:

  1. 为什么funcCpp和funcCpp2比func1c和func2c慢?(Rcpp比编译的R函数慢)

  2. 为什么funcCpp比func2慢?(Rcpp代码比纯R慢)

FWIW,这是我的C++和R版本数据

user% g++ --version
Configured with: --prefix=/Library/Developer/CommandLineTools/usr --with-gxx-include-dir=/usr/include/c++/4.2.1
Apple LLVM version 7.0.0 (clang-700.0.72)
Target: x86_64-apple-darwin14.3.0
Thread model: posix

user% R --version
R version 3.2.2 (2015-08-14) -- "Fire Safety"
Copyright (C) 2015 The R Foundation for Statistical Computing
Platform: x86_64-apple-darwin14.5.0 (64-bit)
Run Code Online (Sandbox Code Playgroud)

这是R和Rcpp代码:

library(Rcpp)
library(rbenchmark)

func1 <- function(alpha, tau, rho, phi) {
    abs((1 + alpha)^(tau) * phi - rho * (1- (1 + alpha)^(tau))/(1 - (1 + alpha)))
}

func2 <- function(alpha, tau, rho, phi) {
    pval <- (alpha + 1)^(tau)
    abs( pval * phi - rho * (1- pval)/(1 - (1 + alpha)))
}

func1c <- compiler::cmpfun(func1)
func2c <- compiler::cmpfun(func2)

func3c <- Rcpp::cppFunction('
    double funcCpp(double alpha, int tau, double rho, double phi) {
        double pow_val = std::exp(tau * std::log(alpha + 1.0));
        double pAg = rho/alpha;
        return std::abs(pow_val * (phi -  pAg) + pAg);
    }')

func4c <- Rcpp::cppFunction('
    double funcCpp2(double alpha, int tau, double rho, double phi) {
        double pow_val = pow(alpha + 1.0, tau) ;
        double pAg = rho/alpha;
        return std::abs(pow_val * (phi -  pAg) + pAg);
    }')

res <- benchmark(
           func1(0.01, 200, 100, 1000000),
           func1c(0.01, 200, 100, 1000000),
           func2(0.01, 200, 100, 1000000),
           func2c(0.01, 200, 100, 1000000),
           func3c(0.01, 200, 100, 1000000),
           func4c(0.01, 200, 100, 1000000),
           funcCpp(0.01, 200, 100, 1000000),
           funcCpp2(0.01, 200, 100, 1000000),
           replications = 100000,
           order='relative',
           columns=c("test", "replications", "elapsed", "relative"))
Run Code Online (Sandbox Code Playgroud)

以下是输出rbenchmark:

                             test replications elapsed relative
   func1c(0.01, 200, 100, 1e+06)       100000   0.349    1.000
   func2c(0.01, 200, 100, 1e+06)       100000   0.372    1.066
 funcCpp2(0.01, 200, 100, 1e+06)       100000   0.483    1.384
   func4c(0.01, 200, 100, 1e+06)       100000   0.509    1.458
    func2(0.01, 200, 100, 1e+06)       100000   0.510    1.461
  funcCpp(0.01, 200, 100, 1e+06)       100000   0.524    1.501
   func3c(0.01, 200, 100, 1e+06)       100000   0.546    1.564
    func1(0.01, 200, 100, 1e+06)       100000   0.549    1.573K
Run Code Online (Sandbox Code Playgroud)

Dir*_*tel 5

这基本上是一个不合适的问题.当你假设

func1 <- function(alpha, tau, rho, phi) {
     abs((alpha + 1)^(tau) * phi - rho * (1- (1 + alpha)^(tau))/(1 - (1 + alpha)))
}
Run Code Online (Sandbox Code Playgroud)

甚至没有指定参数是什么(即标量?向量?大?小?内存开销)然后你可以在最好的情况下直接从解析的表达式中获得一小组(基本的,有效的)函数调用.

自从我们有了字节编译器以来,Luke Tierney在随后的R版本中对其进行了改进,我们已经知道它可以很好地代数表达式.

现在,编译的C/C++代码也做得很好 - 但是调用编译的coed会有开销,你在这里看到的是"足够"的问题,开销并没有真正得到分摊.

所以你最终得到了很多平局.据我所知,并不奇怪.

  • 您对此读得太多了。本机函数称为原语。由Rcpp和Rcpp属性生成的函数将具有一个或两个非常瘦的包装器和间接寻址。在非病理性例子中,这些无关紧要,但是这个问题是病理性的。 (2认同)