子集由多个范围组成

son*_*.ra 3 r range subset data.table

我想得到一个介于多个范围之间的值列表.

library(data.table)
values <- data.table(value = c(1:100))
range <-  data.table(start = c(6, 29, 87), end = c(10, 35, 92)) 
Run Code Online (Sandbox Code Playgroud)

我需要结果只包含介于这些范围之间的值:

 results <- c(6, 7, 8, 9, 10, 29, 30, 31, 32, 33, 34, 35, 87, 88, 89, 90, 91, 92)
Run Code Online (Sandbox Code Playgroud)

我目前正在使用for循环,

results <- data.table(NULL)
for (i in 1:NROW(range){ 
          results <- rbind(results, 
              data.table(result = values[value >= range[i, start] & 
                 value <= range[i, end], value]))}
Run Code Online (Sandbox Code Playgroud)

但实际数据集非常大,我正在寻找一种更有效的方法.

任何建议表示赞赏!谢谢!

tal*_*lat 5

如果您拥有data.table的最新CRAN版本,则可以使用非equi连接.例如,您可以创建一个索引,然后可以使用该索引对原始数据进行子集化:

idx <- values[range, on = .(value >= start, value <= end), which = TRUE]
# [1]  6  7  8  9 10 29 30 31 32 33 34 35 87 88 89 90 91 92
values[idx]
Run Code Online (Sandbox Code Playgroud)


Jaa*_*aap 5

使用非equi连接的可能性data.table:

values[range, on = .(value >= start, value <= end), .(results = x.value)]
Run Code Online (Sandbox Code Playgroud)

这使:

    results
 1:       6
 2:       7
 3:       8
 4:       9
 5:      10
 6:      29
 7:      30
 8:      31
 9:      32
10:      33
11:      34
12:      35
13:      87
14:      88
15:      89
16:      90
17:      91
18:      92
Run Code Online (Sandbox Code Playgroud)

或者根据@Henrik的建议:values[value %inrange% range].这对于包含多列的data.table也非常有效:

# create new data
set.seed(26042017)
values2 <- data.table(value = c(1:100), let = sample(letters, 100, TRUE), num = sample(100))

> values2[value %inrange% range]
    value let num
 1:     6   v  70
 2:     7   f  77
 3:     8   u  21
 4:     9   x  66
 5:    10   g  58
 6:    29   f   7
 7:    30   w  48
 8:    31   c  50
 9:    32   e   5
10:    33   c   8
11:    34   y  19
12:    35   s  97
13:    87   j  80
14:    88   o   4
15:    89   h  65
16:    90   c  94
17:    91   k  22
18:    92   g  46
Run Code Online (Sandbox Code Playgroud)

  • 使用便利函数`%inrange%`:`values [value%inrange%range]` (2认同)