Nan*_*ncy 6 r date dataframe data.table
我想组合数据帧的行,使得"开始"和"结束"列描述的范围包括原始数据集中的所有值.可能存在重叠,重复和嵌套范围.某些范围可能会丢失.
这是我要崩溃的数据类型的示例:
data = data.frame(rbind(
c("Roger", 1, 10),
c("Roger", 10, 15),
c("Roger", 16, 17),
c("Roger", 3, 6),
c("Roger", 20, 25),
c("Roger", NA, NA),
c("Susan", 2, 8)))
names(data) = c("name", "start", "end")
data$start = as.numeric(as.character(data$start))
data$end = as.numeric(as.character(data$end))
Run Code Online (Sandbox Code Playgroud)
期望的结果是:
name start end
Roger 1 17
Roger 20 25
Susan 2 8
Run Code Online (Sandbox Code Playgroud)
我的尝试是扩展每行范围内的每个项目.这有效,但后来我不知道如何缩小它.另外,我正在使用的完整数据集有大约3000万行和非常大的范围,所以这种方法非常慢.
pb <- txtProgressBar(min = 0, max = length(data$name), style = 3)
mylist = list()
for(i in 1:length(data$name)){
subdata = data[i,]
if(is.na(subdata$start)){
mylist[[i]] = subdata
mylist[[i]]$each = NA
}
if(!is.na(subdata$start)){
sequence = seq(subdata$start, subdata$end)
mylist[[i]] = subdata[rep(1, each = length(sequence)),]
mylist[[i]]$daily = sequence
}
setTxtProgressBar(pb, i)
}
rbindlist(mylist)
Run Code Online (Sandbox Code Playgroud)
Fra*_*ank 10
我猜IRanges对此更有效率,但......
library(data.table)
# remove missing values
DT = na.omit(setDT(data))
# sort
setorder(DT, name, start)
# mark threshold for a new group
DT[, high_so_far := shift(cummax(end), fill=end[1L]), by=name]
# group and summarise
DT[, .(start[1L], end[.N]), by=.( name, g = cumsum(start > high_so_far + 1L) )]
# name g V1 V2
# 1: Roger 0 1 17
# 2: Roger 1 20 25
# 3: Susan 1 2 8
Run Code Online (Sandbox Code Playgroud)
这个怎么运作:
cummax 是累计最大值,所以到目前为止的最高值,包括当前行.shift(从前一行绘制).cumsum(some_condition) 是制作分组变量的标准方法..N是由该组确定的最后一行by=..(s = start[1L], e = end[.N])如果需要,可以在最后一步中命名列.
有日期间隔.如果使用日期,我建议IDate上课; 只是as.IDate用来转换一个Date.
我们可以+1约会,但遗憾的是不能cummax,所以...
cummax_idate = function(x) (setattr(cummax(unclass(x)), "class", c("Date", "IDate")))
set.seed(1)
d = sample(as.IDate("2011-11-11") + 1:10)
cummax_idate(d)
# [1] "2011-11-14" "2011-11-15" "2011-11-16" "2011-11-18" "2011-11-18"
# [6] "2011-11-19" "2011-11-20" "2011-11-20" "2011-11-21" "2011-11-21"
Run Code Online (Sandbox Code Playgroud)
我认为这个功能可以用来代替cummax.
()功能中的额外功能是因为setattr不会打印其输出.