我想计算一下发生了多长时间.
鉴于以下情况,您可以看到灯光在某些时间点亮,但并非在所有时间点亮.我想规范化数据以将其提供给神经网络.
library(data.table)
d<-data.table(
date = c("6/1/2013", "6/2/2013","6/3/2013","6/4/2013"),
light = c(TRUE,FALSE,FALSE,TRUE)
)
d
date light
1: 6/1/2013 TRUE
2: 6/2/2013 FALSE
3: 6/3/2013 FALSE
4: 6/4/2013 TRUE
Run Code Online (Sandbox Code Playgroud)
我想要计算的是另一列显示与最后一次出现的"距离".
所以对于上面的数据:第一行,因为它上面应该是零第二行,应该是第三行,应该是第二行,应该是零
我建议根据何时从FALSE切换到TRUE来创建分组列:
# create group column
d[c(light), group := cumsum(light)]
d[is.na(group), group:=0L]
d[, group := cumsum(group)]
d
Run Code Online (Sandbox Code Playgroud)
然后简单地按小组计算,使用cumsum和否定light:
d[, distance := cumsum(!light), by=group]
# remove the group column for cleanliness
d[, group := NULL]
Run Code Online (Sandbox Code Playgroud)
d
date light distance
1: 2013-06-01 TRUE 0
2: 2013-06-02 FALSE 1
3: 2013-06-03 FALSE 2
4: 2013-06-04 TRUE 0
5: 2013-06-05 TRUE 0
6: 2013-06-06 FALSE 1
7: 2013-06-07 FALSE 2
8: 2013-06-08 TRUE 0
Run Code Online (Sandbox Code Playgroud)
我添加了几行
这应该可以做到:
d[, distance := 1:.N - 1, by = cumsum(light)]
Run Code Online (Sandbox Code Playgroud)
或这个:
d[, distance := .I - .I[1], by = cumsum(light)]
Run Code Online (Sandbox Code Playgroud)
如果您想实际计算天数而不是行距离,您可以使用:
d[, distance := as.numeric(as.POSIXct(date, format = "%m/%d/%Y") -
as.POSIXct(date[1], format = "%m/%d/%Y"),
units = 'days'),
by = cumsum(light)]
Run Code Online (Sandbox Code Playgroud)