R:基于整数列的data.table子集

Abh*_*bhi 10 r dataframe data.table

只是想知道是否有一种更方便的数据子集.基本上我有一张带有百万行和数百列的大桌子.我想基于整数col/s对其进行子集化,其值在我定义的范围之间.

我想知道是否将相关列设置为Key它将是二进制搜索但是不确定我是否可以找到一系列值之间的行.

下面举例说明.

> n = 1e7
> dt <- data.table(a=rnorm(n),b=sample(letters,replace=T,n))
> system.time(subset(dt, a > 1 & a < 2))
   user  system elapsed 
  1.596   0.000   1.596
> system.time(dt[a %between% c(1,2)])
   user  system elapsed 
  1.168   0.000   1.168 
Run Code Online (Sandbox Code Playgroud)

可以这样做吗?

setkey(dt,a)
dt[  ] : get me the rows between 1 and 2 values of the key
Run Code Online (Sandbox Code Playgroud)

谢谢!-Abhi

mne*_*nel 8

如果您确实设置了密钥a(这需要一些时间(我的机器上需要14.7秒n=1e7),那么您可以使用滚动连接来识别您感兴趣的区域的开始和结束.

# thus the following will work. 
dt[seq.int(dt[.(1),.I,roll=-1]$.I, dt[.(2), .I, roll=1]$.I)]


n = 1e7
dt <- data.table(a=rnorm(n),b=sample(letters,replace=T,n))
system.time(setkey(dt,a))
#  This  does take some time
# user  system elapsed 
# 14.72    0.00   14.73
library(microbenchmark)
f1 <- function() t1 <- dt[floor(a) == 1]
f2 <-  function() t2 <- dt[a >= 1 & a <= 2]
f3 <- function() {t3 <- dt[seq.int(dt[.(1),.I,roll=-1]$.I, dt[.(2), .I, roll=1]$.I)]   }
microbenchmark(f1(),f2(),f3(), times=10)
# Unit: milliseconds
#  expr       min        lq    median        uq       max neval
#  f1() 371.62161 387.81815 394.92153 403.52299 489.61508    10
#  f2() 529.62952 536.23727 544.74470 631.55594 634.92275    10
#  f3()  65.58094  66.34703  67.04747  75.89296  89.10182    10
Run Code Online (Sandbox Code Playgroud)

它现在"快",但因为我们花了很长时间设置密钥.

添加@ eddi的基准测试方法

 f4 <- function(tolerance = 1e-7){  # adjust according to your needs
  start = dt[J(1 + tolerance), .I[1], roll = -Inf]$V1
  end   = dt[J(2 - tolerance), .I[.N], roll = Inf]$V1
 if (start <= end) dt[start:end]}
 microbenchmark(f1(),f2(),f3(),f4(), times=10)
# Unit: milliseconds
#  expr      min        lq    median        uq       max neval
#  f1() 373.3313 391.07479 440.07025 488.54020 491.48141    10
#  f2() 523.2319 530.11218 533.57844 536.67767 629.53779    10
#  f3()  65.6238  65.71617  66.09967  66.56768  83.27646    10
#  f4()  65.8511  66.26432  66.62096  83.86476  87.01092    10
Run Code Online (Sandbox Code Playgroud)

Eddi的方法稍微安全一些,因为它可以处理浮点容差.


Aru*_*run 7

setkey这里做这将是昂贵的(即使你使用快速排序1.8.11),因为它也必须移动数据(通过引用).

但是,您可以使用floor函数来解决此问题.基本上,如果你想要[1,2]中的所有数字(注意:这里包括1和2),那么floor将为所有这些值提供值"1".也就是说,你可以这样做:

system.time(t1 <- dt[floor(a) == 1])
#   user  system elapsed 
#  0.234   0.001   0.238 
Run Code Online (Sandbox Code Playgroud)

这相当于做dt[a >= 1 & a <=2]和快两倍.

system.time(t2 <- dt[a >= 1 & a <= 2])
#   user  system elapsed 
#  0.518   0.081   0.601 

identical(t1,t2) # [1] TRUE
Run Code Online (Sandbox Code Playgroud)

但是,由于您不希望相等,因此可以使用hack .Machine$double.eps^0.5从列中减去tolerance = a.如果该值在该范围内[1, 1+tolerance),那么它仍然被认为是1.如果它只是更多,则它不再是1(内部).也就是说,它是机器可以识别为1的最小数字> 1.因此,如果你通过公差减去'a',那么内部表示为"1"的所有数字将变为<1并且floor(.)将导致0.因此,你会得到> 1和<2的范围.那是,

dt[floor(a-.Machine$double.eps^0.5)==1]
Run Code Online (Sandbox Code Playgroud)

将给出相同的结果dt[a>1 & a<2].


如果你要重复这样做,那么可能使用此floor函数创建一个新列并在该integer列上设置键可能会有所帮助:

dt[, fa := as.integer(floor(a-.Machine$double.eps^0.5))]
system.time(setkey(dt, fa)) # v1.8.11
#   user  system elapsed 
#  0.852   0.158   1.043 
Run Code Online (Sandbox Code Playgroud)

现在,您可以使用二进制搜索查询所需的任何范围:

> system.time(dt[J(1L)])    # equivalent to > 1 & < 2
#   user  system elapsed 
#  0.071   0.002   0.076 
> system.time(dt[J(1:4)])   # equivalent to > 1 & < 5
#   user  system elapsed 
#  0.082   0.002   0.085 
Run Code Online (Sandbox Code Playgroud)


edd*_*ddi 5

如果您有一个密钥集,那么您的数据将被排序,因此只需查找端点并获取两者之间的点:

setkey(dt, a)
tolerance = 1e-7  # adjust according to your needs
start = dt[J(1 + tolerance), .I[1], roll = -Inf]$V1
end   = dt[J(2 - tolerance), .I[.N], roll = Inf]$V1
if (start <= end) dt[start:end]
Run Code Online (Sandbox Code Playgroud)

这将比Arun的floor方法慢一点,因为它有2个连接,但在正面,你可以插入你喜欢的任何数字.


Señ*_*r O 1

我不是专家,但据我了解,搜索如此快的data.table原因是因为它使用二进制搜索而不是矢量扫描。对于数字列来说这是不可能的,因为子集设置需要二元运算符keysetkey(dt, b) ; dt['a']

唯一的选择是做类似的事情:

dt[,Between:=ifelse(a > 1 & a < 2, 'yes', 'no')]
setkey(dt, Between)
> system.time(dt['yes'])
   user  system elapsed 
   0.04    0.00    0.03 
Run Code Online (Sandbox Code Playgroud)

有趣的是,它甚至比以下更快:

Index = dt[,a > 1 & a < 2]
> system.time(dt[Index])
   user  system elapsed 
   0.23    0.00    0.23 
Run Code Online (Sandbox Code Playgroud)

但由于无论如何您都可以将子集保存为单独的 data.table,因此我认为这没有太多应用。