R:循环遍历data.table中的列

Mar*_*kes 10 r sapply data.table

我想确定一个大型data.table的列类.

colClasses <- sapply(DT, FUN=function(x)class(x)[1])
Run Code Online (Sandbox Code Playgroud)

有效,但显然本地副本存储在内存中:

> memory.size()
[1] 687.59
> colClasses <- sapply(DT, class)
> memory.size()
[1] 1346.21
Run Code Online (Sandbox Code Playgroud)

循环似乎不可能,因为data.table"with = FALSE"总是产生data.table.

一种快速而又非常脏的方法是:

DT1 <- DT[1, ]
colClasses <- sapply(DT1, FUN=function(x)class(x)[1])
Run Code Online (Sandbox Code Playgroud)

最优雅,最有效的方法是什么?

Mat*_*wle 11

进行了简单的调查,看起来像一个data.tablebug.

> DT = data.table(a=1:1e6,b=1:1e6,c=1:1e6,d=1:1e6)
> Rprofmem()
> sapply(DT,class)
        a         b         c         d 
"integer" "integer" "integer" "integer" 
> Rprofmem(NULL)
> noquote(readLines("Rprofmem.out"))
[1] 4000040 :"as.list.data.table" "as.list" "lapply" "sapply"       
[2] 4000040 :"as.list.data.table" "as.list" "lapply" "sapply" 
[3] 4000040 :"as.list.data.table" "as.list" "lapply" "sapply"   
[4] 4000040 :"as.list.data.table" "as.list" "lapply" "sapply" 

> tracemem(DT)
> sapply(DT,class)
tracemem[000000000431A290 -> 00000000065D70D8]: as.list.data.table as.list lapply sapply 
        a         b         c         d 
"integer" "integer" "integer" "integer" 
Run Code Online (Sandbox Code Playgroud)

那么,看看as.list.data.table:

> data.table:::as.list.data.table
function (x, ...) 
{
    ans <- unclass(x)
    setattr(ans, "row.names", NULL)
    setattr(ans, "sorted", NULL)
    setattr(ans, ".internal.selfref", NULL)
    ans
}
<environment: namespace:data.table>
> 
Run Code Online (Sandbox Code Playgroud)

注意unclass第一行的讨厌.?unclass确认它需要深入了解其论点.从这个快速看起来它似乎没有sapplylapply正在进行复制(我不认为他们做了,因为R擅长写入时复制,而那些不是写作),而是as.listin lapply(发送到as.list.data.table).

所以,如果我们避开它unclass,它应该加速.我们试试吧:

> DT = data.table(a=1:1e7,b=1:1e7,c=1:1e7,d=1:1e7)
> system.time(sapply(DT,class))
   user  system elapsed 
   0.28    0.06    0.35 
> system.time(sapply(DT,class))  # repeat timing a few times and take minimum
   user  system elapsed 
   0.17    0.00    0.17 
> system.time(sapply(DT,class))
   user  system elapsed 
   0.13    0.04    0.18 
> system.time(sapply(DT,class))
   user  system elapsed 
   0.14    0.03    0.17 
> assignInNamespace("as.list.data.table",function(x)x,"data.table")
> data.table:::as.list.data.table
function(x)x
> system.time(sapply(DT,class))
   user  system elapsed 
      0       0       0 
> system.time(sapply(DT,class))
   user  system elapsed 
   0.01    0.00    0.02 
> system.time(sapply(DT,class))
   user  system elapsed 
      0       0       0 
> sapply(DT,class)
        a         b         c         d 
"integer" "integer" "integer" "integer" 
> 
Run Code Online (Sandbox Code Playgroud)

所以,是的,无限好.

我已经提出错误报告#2000以删除该as.list.data.table方法,因为data.table is()已经是一个list.这实际上可能会加速很多习语,例如lapply(.SD,...).[编辑:这在v1.8.1中得到修复].

谢谢你问这个问题!!