我有一个来自支持票务系统的数据集,该系统记录了代理在分类和响应客户请求时所做的每次点击。系统为每次点击分配一个新的 hist_id,但代理将点击多个字段,触发表中的几行,他们认为这是一次“交互”。
我的目标是通过对每个组中的第一个和最后一个 modify_time 值进行差异计算来计算每个交互的处理时间。
我目前陷入困境,因为代理将在一天内与案例进行多次交互。
这是一个示例数据框:
hist_id <- c(1234, 2345, 3456, 4567, 5678, 6789, 7890)
case_id <- c(1, 1, 1, 1, 1, 1, 1)
agent_name <- c("John", "John", "John", "Paul", "Paul", "John", "John")
modify_time <- as.POSIXct(c(1510095120, 1510095180, 1510095240, 1510098600, 1510098720, 1510135200, 1510135320), origin = "1970-01-01")
df <- data.frame(hist_id, case_id, agent_name, modify_time)
Run Code Online (Sandbox Code Playgroud)
正如预期的那样,在 case_id 和 agent_name 上使用 group by 对符合条件的所有行进行分组:
df %>% group_by(case_id, agent_name) %>% mutate(first = first(modify_time), last = last(modify_time), diff = min(difftime(last, first)))
Run Code Online (Sandbox Code Playgroud)
这给了我这个:
# A tibble: 7 …Run Code Online (Sandbox Code Playgroud)