Fab*_*ian 5 time split r intervals
我有一个关于矢量"分裂"的问题,尽管不同的方法可能是可行的.我有一个data.frame(df),看起来像这样(简化版):
case time
1 1 5
2 2 3
3 3 4
Run Code Online (Sandbox Code Playgroud)
"时间"变量计算事件发生前的时间单位(天,周等).我想通过增加行数来扩展数据集,并将"时间""拆分"为长度为1的间隔,从2开始.结果可能如下所示:
case time begin end
1 1 5 2 3
2 1 5 3 4
3 1 5 4 5
4 2 3 2 3
5 3 4 2 3
6 3 4 3 4
Run Code Online (Sandbox Code Playgroud)
显然,我的数据集比这个例子略大.实现这一结果的可行方法是什么?
我有一个开头的想法
df.exp <- df[rep(row.names(df), df$time - 2), 1:2]
Run Code Online (Sandbox Code Playgroud)
为了扩大每个案例的行数,根据时间间隔的数量.基于此,可以以下列方式添加"开始"和"结束"列:
df.exp$begin <- 2:(df.exp$time-1)
Run Code Online (Sandbox Code Playgroud)
但是,我没有成功创建相应的列,因为此命令仅使用第一行来计算(df.exp $ time-1),并且不会自动区分"case".
任何想法将非常感谢!
你可以试试
df2 <- df1[rep(1:nrow(df1), df1$time-2),]
row.names(df2) <- NULL
m1 <- do.call(rbind,
Map(function(x,y) {
v1 <- seq(x,y)
cbind(v1[-length(v1)],v1[-1L])},
2, df1$time))
df2[c('begin', 'end')] <- m1
df2
# case time begin end
#1 1 5 2 3
#2 1 5 3 4
#3 1 5 4 5
#4 2 3 2 3
#5 3 4 2 3
#6 3 4 3 4
Run Code Online (Sandbox Code Playgroud)
或者是一个选项 data.table
library(data.table)
setDT(df1)[,{tmp <- seq(2, time)
list(time= time,
begin= tmp[-length(tmp)],
end=tmp[-1])} , by = case]
# case time begin end
#1: 1 5 2 3
#2: 1 5 3 4
#3: 1 5 4 5
#4: 2 3 2 3
#5: 3 4 2 3
#6: 3 4 3 4
Run Code Online (Sandbox Code Playgroud)
library(data.table)
DT <- as.data.table(df)
DT[, rep(time, time-2), case][, begin := 2:(.N+1), case][, end := begin +1][]
# case V1 begin end
#1: 1 5 2 3
#2: 1 5 3 4
#3: 1 5 4 5
#4: 2 3 2 3
#5: 3 4 2 3
#6: 3 4 3 4
Run Code Online (Sandbox Code Playgroud)