在R中发现观测值之间的时间差

ver*_*his 5 datetime r

我正在尝试确定两次观察之间的时间差。数据由不同的人分解,每个人都有自己的唯一ID。我有一个数据集,它告诉我每次更改时它们的状态都会更新,以及何时更改它们的状态。状态可以是两个值之一,并且它始终会更改为不是它的值(在这种情况下,从Y到N,或从N到Y)。

数据如下所示:

ID Status Time
1    Y     2013-07-01 08:07:00      
2    Y     2013-07-01 08:07:03  
3    Y     2013-07-01 08:07:04      
4    Y     2013-07-01 08:07:06      
1    N     2013-07-01 08:07:07      
2    N     2013-07-01 08:07:23      
5    Y     2013-07-01 08:07:34  
6    Y     2013-07-01 08:07:45  
7    Y     2013-07-01 08:07:47  
1    Y     2013-07-01 08:07:56  
3    N     2013-07-01 08:07:58  
Run Code Online (Sandbox Code Playgroud)

我想找到的是每个ID每次状态更改之间经过的时间,即从Y到N花费多长时间。然后获得摘要统计信息,例如经过时间的分布,均值时间的流逝等

因此,示例输出可能看起来像这样,记录了上面发生的三个Y到N开关(1个开关,2个开关和3个开关)

Y to N change    Time elapsed (in seconds)
1                     7 
2                     20
3                     54
Run Code Online (Sandbox Code Playgroud)

由于某种原因,我对此有很多麻烦。现在,我将时间设置为POSIXlt格式,并将ID和状态作为一个因素。我尝试使用ddply按ID然后按时间戳对数据进行排序,但是到目前为止还没有奏效。任何建议将不胜感激!

编辑:将时间更改为实际上是正确的类型。

Edit2:最终在等待更多答案的同时编写了解决方案。我的方法比这里的许多解决方案都要难看,但我做到了:

N <- ifelse(df$Status=="N",1,0)
Y <- ifelse(df$Status== "Y",1,0)

#making a vector which is 1 for a row if the item status of the row below it is N
var1 <- N
for (i in 1:nrow(df)) {
  var1[i] <- N[i+1]
}

#making a vector which is TRUE if a row's item status is Y and the row after is N
check <- ifelse(var1==s & var1==1,TRUE,FALSE)
#had to define the last one as FALSE manually because the for loop above would miss the last entry due to how it was constructed
check [50000]=FALSE



#made a loop which finds the time difference for a row's TIME and the row below it, given that "check " is true for that row, and writes that to a results vector.
#here is the results vector
results <- numeric(nrow(df))
#here is the for loop
for (i in 1:nrow(df)) {
  if(check [i]){
    results[i] <- difftime(df$Time[i],df$Time[i+1])
  }
}
Run Code Online (Sandbox Code Playgroud)

我最初是通过for循环解决此问题的,但是在我的实际数据集中的约100万行中,它太慢了,所以我做了这些矢量化工作。这些其他解决方案是否可以处理那么大的数据?我一定会尝试的!

jaz*_*rro 5

这是另一种方法。我试图将所有数据保留在此处的最终输出中。请注意,出于演示目的,我对您的数据做了一些修改。在我的代码中,我首先通过ID和排列了数据Time。然后,我将Status(即Y和N)更改为0和1以便创建group。在这里,group可以告诉我们何时Status更改。如果看到相同的数字持续出现了几行,则表示Status它没有改变。然后,我gap为每个ID 计算了时间差(即)。最后,我将gap每个组的第一行中未出现的值更改为NA。也就是说,我做了不必要的差距NA。请注意,每个ID的第一个观察值也包含NA gapgap在第二。

ann <- data.frame(ID = c(1,2,3,4,1,2,2,1,1,1,3),
                  Status = c("Y", "Y", "Y", "Y",
                             "N", "N", "Y", "Y", "Y", "N", "N"),
                  Time = c("2013-07-01 08:07:00", "2013-07-01 08:07:03",
                           "2013-07-01 08:07:04", "2013-07-01 08:07:06",
                           "2013-07-01 08:07:07", "2013-07-01 08:07:23",
                           "2013-07-01 08:07:34", "2013-07-01 08:07:45",
                           "2013-07-01 08:07:47", "2013-07-01 08:07:56",
                           "2013-07-01 08:07:58"),
                  stringsAsFactors = FALSE)

ann$Time <- as.POSIXct(ann$Time)

#   ID Status                Time
#1   1      Y 2013-07-01 08:07:00
#2   2      Y 2013-07-01 08:07:03
#3   3      Y 2013-07-01 08:07:04
#4   4      Y 2013-07-01 08:07:06
#5   1      N 2013-07-01 08:07:07
#6   2      N 2013-07-01 08:07:23
#7   2      Y 2013-07-01 08:07:34
#8   1      Y 2013-07-01 08:07:45
#9   1      Y 2013-07-01 08:07:47
#10  1      N 2013-07-01 08:07:56
#11  3      N 2013-07-01 08:07:58

ann %>%
    arrange(ID, Time) %>%
    group_by(ID) %>%
    mutate(Status = ifelse(Status == "Y", 1, 0),
           group = cumsum(c(T, diff(Status) != 0)),
           gap = Time - lag(Time)) %>%
    group_by(ID, group) %>%
    mutate(gap = ifelse(row_number() != 1, NA, gap))

#   ID Status                Time group gap
#1   1      1 2013-07-01 08:07:00     1  NA
#2   1      0 2013-07-01 08:07:07     2   7
#3   1      1 2013-07-01 08:07:45     3  38
#4   1      1 2013-07-01 08:07:47     3  NA
#5   1      0 2013-07-01 08:07:56     4   9
#6   2      1 2013-07-01 08:07:03     1  NA
#7   2      0 2013-07-01 08:07:23     2  20
#8   2      1 2013-07-01 08:07:34     3  11
#9   3      1 2013-07-01 08:07:04     1  NA
#10  3      0 2013-07-01 08:07:58     2  54
#11  4      1 2013-07-01 08:07:06     1  NA
Run Code Online (Sandbox Code Playgroud)