白色空间会减慢处理速度

use*_*820 2 r

我有大量的数据需要分析,在编写代码时,我倾向于在单词或变量名之间留出空间.所以问题是,效率是第一优先级,白空间是否有成本?

c <-a + b比c < - a + b更有效

Jos*_*ien 8

对于第一,第二,第三,......,近似,不,它根本不会花费你任何时间.

你花在空格键上的额外时间比运行时的成本高出几个数量级(并且根本没有).

更重要的成本将来自任何由于遗漏空间而导致的可读性降低,这会使代码更难以解析(对于人类而言).


Sim*_*lon 5

总之,不!

library(microbenchmark)

f1 <- function(x){
    j   <- rnorm( x , mean = 0 , sd = 1 )         ;
    k   <-      j    *      2         ;
    return(    k     )
}

f2 <- function(x){j<-rnorm(x,mean=0,sd=1);k<-j*2;return(k)}


microbenchmark( f1(1e3) , f2(1e3) , times= 1e3 )
    Unit: microseconds
     expr     min       lq  median      uq      max neval
 f1(1000) 110.763 112.8430 113.554 114.319  677.996  1000
 f2(1000) 110.386 112.6755 113.416 114.151 5717.811  1000

#Even more runs and longer sampling
microbenchmark( f1(1e4) , f2(1e4) , times= 1e4 )
  Unit: milliseconds
      expr      min       lq   median       uq       max neval
 f1(10000) 1.060010 1.074880 1.079174 1.083414 66.791782 10000
 f2(10000) 1.058773 1.074186 1.078485 1.082866  7.491616 10000
Run Code Online (Sandbox Code Playgroud)

编辑

似乎使用microbenchmark似乎是不公平的,因为在循环运行表达式之前就已经对其进行了解析。但是,使用source 应该意味着每次迭代都必须解析源代码并删除空格。所以我将函数保存到两个单独的文件中,文件的最后一行是函数的调用,例如,我的文件f2.R看起来像这样:

f2 <- function(x){j<-rnorm(x,mean=0,sd=1);k<-j*2;return(k)};f2(1e3)
Run Code Online (Sandbox Code Playgroud)

我这样测试它们:

microbenchmark( eval(source("~/Desktop/f2.R")) ,  eval(source("~/Desktop/f1.R")) , times = 1e3)
  Unit: microseconds
                           expr     min       lq   median      uq       max neval
 eval(source("~/Desktop/f2.R")) 649.786 658.6225 663.6485 671.772  7025.662  1000
 eval(source("~/Desktop/f1.R")) 687.023 697.2890 702.2315 710.111 19014.116  1000
Run Code Online (Sandbox Code Playgroud)

以及1e4复制差异的直观表示。 在此处输入图片说明

也许在重复解析函数的情况下确实有微小的区别,但是在正常的用例中不会发生。

  • 看起来它们是相同的(直到附加到已解析函数主体的各种`srcref`属性)。必须有一种更优雅的方法来检查它,但是至少可以使用以下方法:`a &lt;-body(f1); b &lt;-body(f2); 属性(a)&lt;-属性(b)&lt;-NULL; 相同(a,b)` (2认同)

Ric*_*rta 5

但是,不,不是真的:

TL; DR 运行脚本可能需要更长的时间来删除空白,而不是通过删除它们保存的时间.

@Josh O'Brien确实击中了头部.但我坚决无法抗拒基准

正如您所看到的,如果您处理的是1亿个数量级的线,那么您将看到一个微不足道的阻碍. 然而, 有了这么多行,他们很可能至少有一个(如果不是数百个)热点,只需改进其中一个热点的代码就可以比你grep所有的空白更快.

  library(microbenchmark)

  microbenchmark(LottaSpace = eval(LottaSpace), NoSpace = eval(NoSpace), NormalSpace = eval(NormalSpace), times=10e7)

  @ 100 times;  Unit: microseconds
           expr   min     lq median     uq    max
  1  LottaSpace 7.526 7.9185 8.1065 8.4655 54.850
  2 NormalSpace 7.504 7.9115 8.1465 8.5540 28.409
  3     NoSpace 7.544 7.8645 8.0565 8.3270 12.241

  @ 10,000 times;  Unit: microseconds    
           expr   min    lq median    uq      max
  1  LottaSpace 7.284 7.943  8.094 8.294 47888.24
  2 NormalSpace 7.182 7.925  8.078 8.276 46318.20
  3     NoSpace 7.246 7.921  8.073 8.271 48687.72
Run Code Online (Sandbox Code Playgroud)

哪里:

  LottaSpace <- quote({
        a            <-            3
        b                  <-                  4   
        c         <-      5
        for   (i            in      1:7)
              i         +            i
  })


  NoSpace <- quote({
  a<-3
  b<-4
  c<-5
  for(i in 1:7)
  i+i
  })

  NormalSpace <- quote({
   a <- 3
   b <- 4 
   c <- 5
   for (i in 1:7)
   i + i
  })
Run Code Online (Sandbox Code Playgroud)