相关疑难解决方法(0)

在另一个数据帧中按范围过滤一个数据帧的有效方法

假设我有一个数据框,其中包含一堆数据和一个日期/时间列,指示何时收集每个数据点.我有另一个列出时间跨度的数据框,其中"开始"列表示每个跨距开始的日期/时间,"结束"列表示每个跨度结束的日期/时间.

我在下面使用简化数据创建了一个虚拟示例:

main_data = data.frame(Day=c(1:30))

spans_to_filter = 
    data.frame(Span_number = c(1:6),
               Start = c(2,7,1,15,12,23),
               End = c(5,10,4,18,15,26))

Run Code Online (Sandbox Code Playgroud)

我玩弄了几种解决这个问题的方法,最后得到了以下解决方案:

require(dplyr)    
filtered.main_data =
    main_data %>% 
    rowwise() %>% 
    mutate(present = any(Day >= spans_to_filter$Start & Day <= spans_to_filter$End)) %>% 
    filter(present) %>% 
    data.frame()

Run Code Online (Sandbox Code Playgroud)

这工作得非常好,但是我注意到如果我有大量数据可能需要一段时间来处理(我假设因为我正在进行逐行比较).我还在学习R的来龙去脉,我想知道是否有更有效的方法来执行此操作,最好是使用dplyr/tidyr？

r dplyr

Bra*_*ood

2017 04-19

14
推荐指数

2
解决办法

3227
查看次数

使用`j`选择`x`的连接列及其所有非连接列

我有两个数据表:

library(data.table)
d1 <- data.table(grp = c("a", "c", "b", "a"), val = c(2, 3, 6, 7), y1 = 1:4, y2 = 5:8)

d2 <- data.table(grp = rep(c("a", "b", "c"), 2),
                 from = rep(c(1, 5), each = 3), to = rep(c(4, 10), each = 3), z = 11:16)

Run Code Online (Sandbox Code Playgroud)

我执行一个非等联接,其中'd1'中的'val'值应该落在每个组'grp'的'from'和'to'''''定义的范围内.

d1[d2, on = .(grp, val >= from, val <= to), nomatch = 0]
#    grp val y1 y2 val.1  z
# 1:   a   1  1  5     4 11
# 2:   c   1 …

Run Code Online (Sandbox Code Playgroud)

r data.table

Hen*_*rik

2017 02-20

9
推荐指数

1
解决办法

178
查看次数

标签统计

r ×2

data.table ×1

dplyr ×1

在另一个数据帧中按范围过滤一个数据帧的有效方法

使用`j`选择`x`的连接列及其所有非连接列

标签 统计

标签统计