为什么在具有多个组的大型数据帧上拆分效率低?

Ric*_*ard 8 performance r purrr

df %>% split(.$x)
Run Code Online (Sandbox Code Playgroud)

对于大量x的唯一值变得缓慢.如果我们将数据帧手动拆分为较小的子集,然后对每个子集执行拆分,我们将时间减少至少一个数量级.

library(dplyr)
library(microbenchmark)
library(caret)
library(purrr)

N      <- 10^6
groups <- 10^5
df     <- data.frame(x = sample(1:groups, N, replace = TRUE), 
                     y = sample(letters,  N, replace = TRUE))
ids      <- df$x %>% unique
folds10  <- createFolds(ids, 10)
folds100 <- createFolds(ids, 100)
Run Code Online (Sandbox Code Playgroud)

跑步microbenchmark给了我们

## Unit: seconds

## expr                                                  mean
l1 <- df %>% split(.$x)                                # 242.11805

l2 <- lapply(folds10,  function(id) df %>% 
      filter(x %in% id) %>% split(.$x)) %>% flatten    # 50.45156  

l3 <- lapply(folds100, function(id) df %>% 
      filter(x %in% id) %>% split(.$x)) %>% flatten    # 12.83866  
Run Code Online (Sandbox Code Playgroud)

split不是专为大型群体?除了手动初始子集之外还有其他选择吗?

我的笔记本电脑是2013年底的macbook pro,2.4GHz 8GB

Mar*_*gan 10

更多的解释而不是答案.对大数据帧进行子设置比分设小数据帧更昂贵

> df100 = df[1:100,]
> idx = c(1, 10, 20)
> microbenchmark(df[idx,], df100[idx,], times=10)
Unit: microseconds
         expr     min      lq     mean  median      uq     max neval
    df[idx, ] 428.921 441.217 445.3281 442.893 448.022 475.364    10
 df100[idx, ]  32.082  32.307  35.2815  34.935  37.107  42.199    10
Run Code Online (Sandbox Code Playgroud)

split() 为每个小组支付这笔费用.

运行可以看出原因 Rprof()

> Rprof(); for (i in 1:1000) df[idx,]; Rprof(NULL); summaryRprof()
$by.self
       self.time self.pct total.time total.pct
"attr"      1.26      100       1.26       100

$by.total
               total.time total.pct self.time self.pct
"attr"               1.26       100      1.26      100
"[.data.frame"       1.26       100      0.00        0
"["                  1.26       100      0.00        0

$sample.interval
[1] 0.02

$sampling.time
[1] 1.26
Run Code Online (Sandbox Code Playgroud)

所有的时间都花在了电话上attr().单步执行代码debug("[.data.frame")表明痛苦涉及到类似的调用

attr(df, "row.names")
Run Code Online (Sandbox Code Playgroud)

这个小例子展示了R用来避免表示不存在的行名的技巧:use c(NA, -5L),而不是1:5.

> dput(data.frame(x=1:5))
structure(list(x = 1:5), .Names = "x", row.names = c(NA, -5L), class = "data.frame")
Run Code Online (Sandbox Code Playgroud)

请注意,attr()返回一个向量 - row.names是动态创建的,而对于大型data.frame则创建了大量的row.names

> attr(data.frame(x=1:5), "row.names")
[1] 1 2 3 4 5
Run Code Online (Sandbox Code Playgroud)

所以人们可能会认为即使是荒谬的row.names也会加快计算速度

> dfns = df; rownames(dfns) = rev(seq_len(nrow(dfns)))
> system.time(split(dfns, dfns$x))
   user  system elapsed 
  4.048   0.000   4.048 
> system.time(split(df, df$x))
   user  system elapsed 
 87.772  16.312 104.100 
Run Code Online (Sandbox Code Playgroud)

拆分矢量或矩阵也很快.


jan*_*cki 2

这并不是严格意义上的split.data.frame问题,对于许多组来说,data.frame 的可扩展性存在一个更普遍的问题。
如果你使用的话,你可以获得相当不错的速度split.data.table。我在常规 data.table 方法之上开发了这个方法,它似乎在这里可以很好地扩展。

system.time(
    l1 <- df %>% split(.$x)   
)
#   user  system elapsed 
#200.936   0.000 217.496 
library(data.table)
dt = as.data.table(df)
system.time(
    l2 <- split(dt, by="x")   
)
#   user  system elapsed 
#  7.372   0.000   6.875 
system.time(
    l3 <- split(dt, by="x", sorted=TRUE)   
)
#   user  system elapsed 
#  9.068   0.000   8.200 
Run Code Online (Sandbox Code Playgroud)

sorted=TRUE将返回与 data.frame 方法相同顺序的列表,默认情况下 data.table 方法将保留输入数据中存在的顺序。如果你想坚持使用 data.frame 你可以在最后使用lapply(l2, setDF).

附言。split.data.table1.9.7添加,devel版本安装非常简单

install.packages("data.table", type="source", repos="http://Rdatatable.github.io/data.table")
Run Code Online (Sandbox Code Playgroud)

有关更多信息,请参阅安装 wiki