data.table 中的区间类

J.P*_*ier 5 r lubridate data.table

我的问题将在以下可重现的示例中得到解释。

首先,让我们加载所需的包并创建一个POSIXct和一个data.table对象。

library(data.table)
library(lubridate)

target_date <- ymd(20180601, tz='America/Montreal')

test <- data.table(
  V1 = seq(1:3),
  V2 = c(ymd(20170421, tz='America/Montreal'),
         ymd(20170702, tz='America/Montreal'),
         ymd(20180113, tz='America/Montreal'))
)
Run Code Online (Sandbox Code Playgroud)

正如我们在下面看到的,一切工作正常。

test[]

##     V1         V2
##  1:  1 2017-04-21
##  2:  2 2017-07-02
##  3:  3 2018-01-13
Run Code Online (Sandbox Code Playgroud)

然后,我创建一个包含Interval对象的新列。

test[, V3:=interval(V2, target_date)]
Run Code Online (Sandbox Code Playgroud)

还在那里,一切都还好。

test[]

##     V1         V2                             V3
##  1:  1 2017-04-21 2017-04-21 EDT--2018-06-01 EDT
##  2:  2 2017-07-02 2017-07-02 EDT--2018-06-01 EDT
##  3:  3 2018-01-13 2018-01-13 EST--2018-06-01 EDT
Run Code Online (Sandbox Code Playgroud)

然后,我想创建两个新列,它们仅在前两行上定义:第一个是列的函数POSIXct,第二个是列的函数Interval

test[c(1, 3), V4 := V2 + days(20)]
test[]

##     V1         V2                             V3         V4
##  1:  1 2017-04-21 2017-04-21 EDT--2018-06-01 EDT 2017-05-11
##  2:  2 2017-07-02 2017-07-02 EDT--2018-06-01 EDT       <NA>
##  3:  3 2018-01-13 2018-01-13 EST--2018-06-01 EDT 2018-02-02
Run Code Online (Sandbox Code Playgroud)

在这一点上还是正确的。

然后,当我尝试使用列的列函数执行相同的操作时Interval,我得到以下结果warning

test[c(1, 3), V5 := ymd(20180101, tz='America/Montreal') %within% V3]

##  Warning messages:
##  1: In as.numeric(a) - as.numeric(b@start) <= b@.Data :
##    longer object length is not a multiple of shorter object length
##  2: In `[.data.table`(test, c(1, 3), `:=`(V5, ymd(20180101, tz = "America/Montreal") %within%  :
##  Supplied 3 items to be assigned to 2 items of column 'V5' (1 unused)
Run Code Online (Sandbox Code Playgroud)

warning告诉我,事实上,该命令生成了 3 个值,并且我尝试在 2 行中输入这些值data.table(过滤后data.table有两行)。

我试图找出问题所在,我想我找到了提示。考虑以下两个命令:

test[, V3][2]
##  [1] 2017-07-02 EDT--2018-06-01 EDT

test[2, V3]
##  [1] 2017-04-21 EDT--2018-03-21 EDT 2017-07-02 EDT--2018-06-01 EDT 2018-01-13 EST--2018-12-13 EST
Run Code Online (Sandbox Code Playgroud)

事实上,我认为这两个命令会产生相同的结果,但事实并非如此。更令人惊讶的是,它们的 a 都length为 1(当查看上面的输出时,我认为第二个命令的 a 为length3)。

length(test[, V3][2])
##  [1] 1

length(test[2, V3])
##  [1] 1
Run Code Online (Sandbox Code Playgroud)

问题是,这两个命令在槽中生成一个向量为 1 的对象.Data(我猜的长度Interval以秒为单位),

test[, V3][2]@.Data
##  [1] 28857600

test[2, V3]@.Data
##  [1] 28857600
Run Code Online (Sandbox Code Playgroud)

但第一个槽中的向量为 1 start,而第二个槽中的向量为 3 start

test[, V3][2]@start
##  [1] "2017-07-02 EDT"

test[2, V3]@start
##  [1] "2017-04-21 EDT" "2017-07-02 EDT" "2018-01-13 EST"
Run Code Online (Sandbox Code Playgroud)

我知道我可以通过将每个Interval对象封装在列表中并在每次需要时提取它们来解决这个问题,但是还有其他方法来处理这个问题吗?

Mat*_*att 2

可能有点脏,但你可以去吗:

test[c(1, 3), V5 := ymd(20180101, tz='America/Montreal') %within% V3[.I]]

test[, dat := (V3[.I]@.Data)]
Run Code Online (Sandbox Code Playgroud)