在列中查找最接近的先前负值

use*_*857 4 r dplyr

我有一个数据框df:

library(tidyverse)
t <- c(103,104,108,120,127,129,140,142,150,151,160,177,178,183,186,187,191,194,198,199)
w <- c(1,1,1,-1,-1,-1,-1,-1,1,1,-1,-1,1,1,1,-1,1,1,-1,-1)

df <- data_frame(t, w)

> dput(df)
structure(list(t = c(103, 104, 108, 120, 127, 129, 140, 142, 
150, 151, 160, 177, 178, 183, 186, 187, 191, 194, 198, 199), 
w = c(1, 1, 1, -1, -1, -1, -1, -1, 1, 1, -1, -1, 1, 1, 1, 
-1, 1, 1, -1, -1)), .Names = c("t", "w"), row.names = c(NA, 
-20L), class = c("tbl_df", "tbl", "data.frame"))

> df
# A tibble: 20 x 2
       t     w
   <dbl> <dbl>
 1   103  1.00
 2   104  1.00
 3   108  1.00
 4   120 -1.00
 5   127 -1.00
 6   129 -1.00
 7   140 -1.00
 8   142 -1.00
 9   150  1.00
10   151  1.00
11   160 -1.00
12   177 -1.00
13   178  1.00
14   183  1.00
15   186  1.00
16   187 -1.00
17   191  1.00
18   194  1.00
19   198 -1.00
20   199 -1.00
Run Code Online (Sandbox Code Playgroud)

现在,如果值w大于零,找到最近的前面 w,和相应的差别分配t值,新的一列d.否则,d等于零.即所需的输出应如下所示:

       t     w   d
     103  1.00  NA   (there is no previous w < 0)
     104  1.00  NA   (there is no previous w < 0)
     108  1.00  NA   (there is no previous w < 0)
     120 -1.00   0
     127 -1.00   0
     129 -1.00   0
     140 -1.00   0
     142 -1.00   0
     150  1.00   8   = 150 - 142
     151  1.00   9   = 151 - 142
     160 -1.00   0
     177 -1.00   0
     178  1.00   1   = 178 - 177
     183  1.00   6   = 183 - 177
     186  1.00   9   = 186 - 177
     187 -1.00   0
     191  1.00   4   = 191 - 187
     194  1.00   7   = 194 - 187
     198 -1.00   0
     199 -1.00   0
Run Code Online (Sandbox Code Playgroud)

(NA上面的s也可能为零.)

从昨天开始我试图用攻击这个问题findInterval(),which()等,但都没有成功.我想到的另一种方式是以某种方式介绍lag()函数的变量...

理想情况下,我想有一个类似tidyverse的解决方案.

任何帮助将非常感谢.先感谢您!

Fra*_*ank 8

使用data.table(因为tidyverse目前没有非equi连接):

library(data.table)
DT = data.table(df)

DT[, v := 0]
DT[w > 0, v := 
  DT[w < 0][.SD, on=.(t < t), mult="last", i.t - x.t]
]

      t  w  v
 1: 103  1 NA
 2: 104  1 NA
 3: 108  1 NA
 4: 120 -1  0
 5: 127 -1  0
 6: 129 -1  0
 7: 140 -1  0
 8: 142 -1  0
 9: 150  1  8
10: 151  1  9
11: 160 -1  0
12: 177 -1  0
13: 178  1  1
14: 183  1  6
15: 186  1  9
16: 187 -1  0
17: 191  1  4
18: 194  1  7
19: 198 -1  0
20: 199 -1  0
Run Code Online (Sandbox Code Playgroud)

它将新列初始化为0,然后将其替换为行子集w > 0.更换使用连接数据的子集,.SD在哪里w > 0表,其中的一部分w < 0,DT[w < 0].x[i, on=, j]在这种情况下,连接语法就是......

  • x = DT[w < 0]
  • i = .SD = DT[w > 0]

联接使用每一行根据规则i查找行.找到多个匹配项时,我们只使用last().xon=mult = "last"

j是我们使用连接做的,这里计算两列之间的差异.为了消除每个表中的列的歧义,我们使用前缀x.*i.*.


使用cummax.我不确定这是否概括,但它适用于示例:

DT[, v := t - cummax(t*(w < 0))]
DT[cumsum(w < 0) == 0, v := NA]
Run Code Online (Sandbox Code Playgroud)

我想这要求t列按递增顺序排序.

  • 两个变体都很棒,因为`t`列总是在这里升序.第二个也可以在`dplyr`中轻松实现.谢谢! (2认同)