在 BigQuery 中查找重叠的时间段

Rob*_* E. 2 sql google-bigquery bigquery-udf

假设我在 BigQuery 中的数据结构如下:

WITH session_log AS (
  SELECT 'ABC' as site_id, 1234 user_id, 12 session_id, '2020-02-10 00:29:59.376000 UTC' start_time, '2020-02-10 01:13:02.817000 UTC' end_time UNION ALL
  SELECT 'ABC' as site_id, 1234 user_id, 13 session_id, '2020-02-10 02:41:56.330000 UTC' start_time, '2020-02-10 02:41:56.389999 UTC' end_time UNION ALL
  SELECT 'ABC' as site_id, 1234 user_id, 14 session_id, '2020-02-10 04:24:46.649999 UTC' start_time, '2020-02-10 05:14:08.243000 UTC' end_time UNION ALL
  SELECT 'ABC' as site_id, 1234 user_id, 15 session_id, '2020-02-10 04:59:21.356999 UTC' start_time, '2020-02-10 15:57:11.501000 UTC' end_time  
  SELECT 'ABC' as site_id, 6789 user_id, 25 session_id, '2020-02-10 02:15:38.560000 UTC' start_time, '2020-02-10 02:56:38.784500 UTC' end_time UNION ALL
  SELECT 'ABC' as site_id, 6789 user_id, 26 session_id, '2020-02-10 04:59:21.356999 UTC' start_time, '2020-02-10 15:57:11.501000 UTC' end_time
)
SELECT site_id, user_id, session_id, start_time, end_time FROM session_log
Run Code Online (Sandbox Code Playgroud)

我想查询,session_log以便如果存在另一个具有相同记录site_iduser_id其时间范围与另一个会话重叠的记录,则会话被标记为“并发”。(此处的含义是用户同时在多个设备上访问同一网站。)

理想情况下,我需要一个能够生成以下内容的查询,因为会话 14 和 15 的至少一部分对于该特定用户是重叠的。会话 26 与会话 14 和 15 重叠,但不是并发的,因为它是不同的user_id.

站点ID 用户身份 会话ID 开始时间 时间结束 并发会话
ABC 1234 12 2020-02-10 00:29:59.376000 世界标准时间 2020-02-10 01:13:02.817000 世界标准时间 错误的
ABC 1234 13 2020-02-10 02:41:56.330000 世界标准时间 2020-02-10 02:41:56.389999 世界标准时间 错误的
ABC 1234 14 2020-02-10 04:24:46.649999 世界标准时间 2020-02-10 05:14:08.243000 世界标准时间 真的
ABC 1234 15 2020-02-10 04:59:21.356999 世界标准时间 2020-02-10 05:57:11.501000 世界标准时间 真的
ABC 6789 25 2020-02-10 02:15:38.560000 世界标准时间 2020-02-10 02:56:38.784500 世界标准时间 错误的
ABC 6789 26 2020-02-10 04:44:21.356999 世界标准时间 2020-02-10 06:57:11.501000 世界标准时间 错误的

我尝试创建一个用户定义的函数,该函数将在表中搜索具有相同时间但不具有重叠时间的会话,site_iduser_id失败session_id得很惨。我几乎不好意思把这个放在这里,但是……到底是什么。

CREATE TEMPORARY FUNCTION getConcurrentSessions(_site_id STRING, _user_id INT64, _session_id INT64, _start_time TIMESTAMP, _end_time TIMESTAMP)
AS 
(
    (
        SELECT count(session_id)
        FROM `session_log`
        WHERE site_id = _site_id
        AND user_id = _user_id
        AND session_id != _session_id
        AND (
            (_start_time BETWEEN start_time AND end_time)
            OR
            (_end_time BETWEEN start_time AND end_time)
        )
    )
);
SELECT site_id, user_id, session_id, start_time, end_time,
IF (
  getConcurrentSessions(site_id, user_id, session_id, start_time, end_time) > 0,
  TRUE,
  FALSE
) AS concurrent_sessions 
FROM session_log
Run Code Online (Sandbox Code Playgroud)

任何和所有的建议表示赞赏。谢谢。

Mik*_*ant 5

考虑以下方法

select *, 
  ifnull(start_time <= lag(end_time) over win or 
  end_time >= lead(start_time) over win, false) as concurrent_session 
from your_table
window win as (partition by site_id, user_id order by start_time)         
Run Code Online (Sandbox Code Playgroud)

如果应用于我们问题中的样本数据 - 输出是

在此输入图像描述