R / lubridate：计算两个时期之间重叠的天数

Question

R / lubridate：计算两个时期之间重叠的天数

我正在尝试计算两个时间段之间重叠的天数。一个周期固定在开始和结束日期，另一个在数据框中记录为开始和结束日期。

编辑：我正在处理具有发布日期 (df$start) 和取消发布日期 (df$end) 的广告。我试图找出他们在特定月份（my.start = 2018-01-01，my.end = 2018-08-31）在线的天数。

library(dplyr)
library(lubridate)

my.start <- ymd("2018-08-01")
my.end <- ymd("2018-08-31")

df <- data.frame(start = c("2018-07-15", "2018-07-20", "2018-08-15", "2018-08-20", "2018-09-01"), 
                 end   = c("2018-07-20", "2018-08-05", "2018-08-19", "2018-09-15", "2018-09-15"))

# strings to dates
df <- mutate(df, start = ymd(start), end = ymd(end))

# does not work - calculate overlap in days
df <- mutate(df, overlap = intersect(interval(my.start, my.end), interval(start, end)))

Run Code Online (Sandbox Code Playgroud)

结果应该是 0、5、4、12、0 天：

   my.start |-------------------------------| my.end

|-----| (0)
        |---------| (5)
                            |----| (4)
                                   |------------------| (12)
                                             |---------------| (0)

Run Code Online (Sandbox Code Playgroud)

在 Excel 中，我会使用

=MAX(MIN(my.end, end) - MAX(my.start, start) + 1, 0)

Run Code Online (Sandbox Code Playgroud)

但这也不起作用：

# does not work - calculate via min/max
df <- mutate(df, overlap = max(min(my.end, end) - max(my.start, start) + 1, 0))

Run Code Online (Sandbox Code Playgroud)

在我尝试as.numeric()在日期上使用 Excel 方法之前，我想知道是否有更聪明的方法来做到这一点。

编辑：实际上，Excel 数字方法似乎也没有两种工作（所有结果都为零）：

# does not work - calculate via numeric

ms.num <- as.numeric(my.start)
me.num <- as.numeric(my.end)

df <- df %>% 
  mutate(s.num = as.numeric(start),
         e.num = as.numeric(end),

         overlap = max(min(e.num, me.num) - max(s.num, ms.num) + 1, 0))

Run Code Online (Sandbox Code Playgroud)

编辑：@akrun 的方法似乎适用于 ymd 日期。但是，它似乎不适用于 ymd_hms 次：

library(dplyr)
library(lubridate)
library(purrr)

my.start <- ymd("2018-08-01")
my.end <- ymd("2018-08-31")

df <- data.frame(start = c("2018-07-15 10:00:00", "2018-07-20 10:00:00", "2018-08-15 10:00:00", "2018-08-20 10:00:00", "2018-09-01 10:00:00"), 
                 end   = c("2018-07-20 10:00:00", "2018-08-05 10:00:00", "2018-08-19 10:00:00", "2018-09-15 10:00:00", "2018-09-15 10:00:00"))

# strings to dates
df <- mutate(df, start = ymd_hms(start), end = ymd_hms(end))

# leads to 0 results
df %>% mutate(overlap = map2(start, end, ~ sum(seq(.x, .y, by = '1 day') %in% seq(my.start, my.end, by = '1 day'))))

Run Code Online (Sandbox Code Playgroud)

Answer 1

zac*_*ack 5

我认为您可能会遇到maxand minvs pmaxand 的问题pmin：

library(dplyr)

df %>%
  mutate(overlap = pmax(pmin(my.end, end) - pmax(my.start, start) + 1,0))

       start        end overlap
1 2018-07-15 2018-07-20  0 days
2 2018-07-20 2018-08-05  5 days
3 2018-08-15 2018-08-19  5 days
4 2018-08-20 2018-09-15 12 days
5 2018-09-01 2018-09-15  0 days

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，6 月前
查看次数：	1233 次
最近记录：	7 年，6 月前