J.P*_*ier 5 r lubridate data.table
我的问题将在以下可重现的示例中得到解释。
首先,让我们加载所需的包并创建一个POSIXct和一个data.table对象。
library(data.table)
library(lubridate)
target_date <- ymd(20180601, tz='America/Montreal')
test <- data.table(
V1 = seq(1:3),
V2 = c(ymd(20170421, tz='America/Montreal'),
ymd(20170702, tz='America/Montreal'),
ymd(20180113, tz='America/Montreal'))
)
Run Code Online (Sandbox Code Playgroud)
正如我们在下面看到的,一切工作正常。
test[]
## V1 V2
## 1: 1 2017-04-21
## 2: 2 2017-07-02
## 3: 3 2018-01-13
Run Code Online (Sandbox Code Playgroud)
然后,我创建一个包含Interval对象的新列。
test[, V3:=interval(V2, target_date)]
Run Code Online (Sandbox Code Playgroud)
还在那里,一切都还好。
test[]
## V1 V2 V3
## 1: 1 2017-04-21 2017-04-21 EDT--2018-06-01 EDT
## 2: 2 2017-07-02 2017-07-02 EDT--2018-06-01 EDT
## 3: 3 2018-01-13 2018-01-13 EST--2018-06-01 EDT
Run Code Online (Sandbox Code Playgroud)
然后,我想创建两个新列,它们仅在前两行上定义:第一个是列的函数POSIXct,第二个是列的函数Interval。
test[c(1, 3), V4 := V2 + days(20)]
test[]
## V1 V2 V3 V4
## 1: 1 2017-04-21 2017-04-21 EDT--2018-06-01 EDT 2017-05-11
## 2: 2 2017-07-02 2017-07-02 EDT--2018-06-01 EDT <NA>
## 3: 3 2018-01-13 2018-01-13 EST--2018-06-01 EDT 2018-02-02
Run Code Online (Sandbox Code Playgroud)
在这一点上还是正确的。
然后,当我尝试使用列的列函数执行相同的操作时Interval,我得到以下结果warning
test[c(1, 3), V5 := ymd(20180101, tz='America/Montreal') %within% V3]
## Warning messages:
## 1: In as.numeric(a) - as.numeric(b@start) <= b@.Data :
## longer object length is not a multiple of shorter object length
## 2: In `[.data.table`(test, c(1, 3), `:=`(V5, ymd(20180101, tz = "America/Montreal") %within% :
## Supplied 3 items to be assigned to 2 items of column 'V5' (1 unused)
Run Code Online (Sandbox Code Playgroud)
这warning告诉我,事实上,该命令生成了 3 个值,并且我尝试在 2 行中输入这些值data.table(过滤后data.table有两行)。
我试图找出问题所在,我想我找到了提示。考虑以下两个命令:
test[, V3][2]
## [1] 2017-07-02 EDT--2018-06-01 EDT
test[2, V3]
## [1] 2017-04-21 EDT--2018-03-21 EDT 2017-07-02 EDT--2018-06-01 EDT 2018-01-13 EST--2018-12-13 EST
Run Code Online (Sandbox Code Playgroud)
事实上,我认为这两个命令会产生相同的结果,但事实并非如此。更令人惊讶的是,它们的 a 都length为 1(当查看上面的输出时,我认为第二个命令的 a 为length3)。
length(test[, V3][2])
## [1] 1
length(test[2, V3])
## [1] 1
Run Code Online (Sandbox Code Playgroud)
问题是,这两个命令在槽中生成一个向量为 1 的对象.Data(我猜的长度Interval以秒为单位),
test[, V3][2]@.Data
## [1] 28857600
test[2, V3]@.Data
## [1] 28857600
Run Code Online (Sandbox Code Playgroud)
但第一个槽中的向量为 1 start,而第二个槽中的向量为 3 start。
test[, V3][2]@start
## [1] "2017-07-02 EDT"
test[2, V3]@start
## [1] "2017-04-21 EDT" "2017-07-02 EDT" "2018-01-13 EST"
Run Code Online (Sandbox Code Playgroud)
我知道我可以通过将每个Interval对象封装在列表中并在每次需要时提取它们来解决这个问题,但是还有其他方法来处理这个问题吗?
可能有点脏,但你可以去吗:
test[c(1, 3), V5 := ymd(20180101, tz='America/Montreal') %within% V3[.I]]
test[, dat := (V3[.I]@.Data)]
Run Code Online (Sandbox Code Playgroud)