为什么dplyr这么慢?

ric*_*rdo 11 performance r dplyr

像大多数人一样,Hadley Wickham和他所做的事情给我留下了深刻的印象R- 所以我想我会把一些功能转移到他tidyverse身上......这样做我不知道这一切的意义是什么?

我的新dplyr功能比它们的基本等效速度慢得多 - 我希望我做错了什么.我特别喜欢从理解所需的努力中得到一些回报non-standard-evaluation.

那么,我做错了什么?为什么dplyr这么慢?

一个例子:

require(microbenchmark)
require(dplyr)

df <- tibble(
             a = 1:10,
             b = c(1:5, 4:0),
             c = 10:1)

addSpread_base <- function() {
    df[['spread']] <- df[['a']] - df[['b']]
    df
}

addSpread_dplyr <- function() df %>% mutate(spread := a - b)

all.equal(addSpread_base(), addSpread_dplyr())

microbenchmark(addSpread_base(), addSpread_dplyr(), times = 1e4)
Run Code Online (Sandbox Code Playgroud)

时间结果:

Unit: microseconds
              expr     min      lq      mean median      uq       max neval
  addSpread_base()  12.058  15.769  22.07805  24.58  26.435  2003.481 10000
 addSpread_dplyr() 607.537 624.697 666.08964 631.19 636.291 41143.691 10000
Run Code Online (Sandbox Code Playgroud)

因此,使用dplyr函数转换数据需要大约30倍 - 当然这不是意图吗?

我想这也许这个案子太容易了 - dplyr如果我们有一个更现实的案例,我们正在添加一个列并对数据进行子设置,那真的会大放异彩 - 但这更糟糕.从下面的时间可以看出,这比基本方法慢约70倍.

# mutate and substitute
addSpreadSub_base <- function(df, col1, col2) {
    df[['spread']] <- df[['a']] - df[['b']]
    df[, c(col1, col2, 'spread')]
}

addSpreadSub_dplyr <- function(df, col1, col2) {
    var1 <- as.name(col1)
    var2 <- as.name(col2)
    qq <- quo(!!var1 - !!var2)
    df %>% 
        mutate(spread := !!qq) %>% 
        select(!!var1, !!var2, spread)
}

all.equal(addSpreadSub_base(df, col1 = 'a', col2 = 'b'), 
          addSpreadSub_dplyr(df, col1 = 'a', col2 = 'b'))

microbenchmark(addSpreadSub_base(df, col1 = 'a', col2 = 'b'), 
               addSpreadSub_dplyr(df, col1 = 'a', col2 = 'b'), 
               times = 1e4)
Run Code Online (Sandbox Code Playgroud)

结果:

Unit: microseconds
                                           expr      min       lq      mean   median       uq      max neval
  addSpreadSub_base(df, col1 = "a", col2 = "b")   22.725   30.610   44.3874   45.450   53.798  2024.35 10000
 addSpreadSub_dplyr(df, col1 = "a", col2 = "b") 2748.757 2837.337 3011.1982 2859.598 2904.583 44207.81 10000
Run Code Online (Sandbox Code Playgroud)

Moo*_*per 7

这些是微秒,你的数据集有10行,除非你计划循环数百万个10行数据集,你的基准测试几乎无关紧要(在这种情况下,我无法想象这样一种情况,即绑定是不明智的他们在一起作为第一步).

让我们用更大的数据集来做,比如大一百万倍:

df <- tibble(
  a = 1:10,
  b = c(1:5, 4:0),
  c = 10:1)

df2 <- bind_rows(replicate(1000000,df,F))

addSpread_base <- function(df) {
  df[['spread']] <- df[['a']] - df[['b']]
  df
}
addSpread_dplyr  <- function(df) df %>% mutate(spread = a - b)

microbenchmark::microbenchmark(
  addSpread_base(df2), 
  addSpread_dplyr(df2),
  times = 100)
# Unit: milliseconds
#                 expr      min       lq     mean   median       uq      max neval cld
# addSpread_base(df2) 25.85584 26.93562 37.77010 32.33633 35.67604 170.6507   100   a
# addSpread_dplyr(df2) 26.91690 27.57090 38.98758 33.39769 39.79501 182.2847   100   a
Run Code Online (Sandbox Code Playgroud)

还是相当快,差别不大.

至于你得到的结果的"为什么",这是因为你使用了一个更复杂的功能,所以它有开销.

评论者指出,dplyr不要太努力,不要快速,也许这是比较真实的data.table,并且界面是第一个问题,但作者一直在努力加快速度.例如,混合评估允许(如果我说得对)在与通用函数聚合时直接在分组数据上执行C代码,这可能比基本代码快得多,但简单代码将始终以简单的函数运行得更快.