Rob*_* E. 2 sql google-bigquery bigquery-udf
假设我在 BigQuery 中的数据结构如下:
WITH session_log AS (
SELECT 'ABC' as site_id, 1234 user_id, 12 session_id, '2020-02-10 00:29:59.376000 UTC' start_time, '2020-02-10 01:13:02.817000 UTC' end_time UNION ALL
SELECT 'ABC' as site_id, 1234 user_id, 13 session_id, '2020-02-10 02:41:56.330000 UTC' start_time, '2020-02-10 02:41:56.389999 UTC' end_time UNION ALL
SELECT 'ABC' as site_id, 1234 user_id, 14 session_id, '2020-02-10 04:24:46.649999 UTC' start_time, '2020-02-10 05:14:08.243000 UTC' end_time UNION ALL
SELECT 'ABC' as site_id, 1234 user_id, 15 session_id, '2020-02-10 04:59:21.356999 UTC' start_time, '2020-02-10 15:57:11.501000 UTC' end_time
SELECT 'ABC' as site_id, 6789 user_id, 25 session_id, '2020-02-10 02:15:38.560000 UTC' start_time, '2020-02-10 02:56:38.784500 UTC' end_time UNION ALL
SELECT 'ABC' as site_id, 6789 user_id, 26 session_id, '2020-02-10 04:59:21.356999 UTC' start_time, '2020-02-10 15:57:11.501000 UTC' end_time
)
SELECT site_id, user_id, session_id, start_time, end_time FROM session_log
Run Code Online (Sandbox Code Playgroud)
我想查询,session_log以便如果存在另一个具有相同记录site_id且user_id其时间范围与另一个会话重叠的记录,则会话被标记为“并发”。(此处的含义是用户同时在多个设备上访问同一网站。)
理想情况下,我需要一个能够生成以下内容的查询,因为会话 14 和 15 的至少一部分对于该特定用户是重叠的。会话 26 与会话 14 和 15 重叠,但不是并发的,因为它是不同的user_id.
| 站点ID | 用户身份 | 会话ID | 开始时间 | 时间结束 | 并发会话 |
|---|---|---|---|---|---|
| ABC | 1234 | 12 | 2020-02-10 00:29:59.376000 世界标准时间 | 2020-02-10 01:13:02.817000 世界标准时间 | 错误的 |
| ABC | 1234 | 13 | 2020-02-10 02:41:56.330000 世界标准时间 | 2020-02-10 02:41:56.389999 世界标准时间 | 错误的 |
| ABC | 1234 | 14 | 2020-02-10 04:24:46.649999 世界标准时间 | 2020-02-10 05:14:08.243000 世界标准时间 | 真的 |
| ABC | 1234 | 15 | 2020-02-10 04:59:21.356999 世界标准时间 | 2020-02-10 05:57:11.501000 世界标准时间 | 真的 |
| ABC | 6789 | 25 | 2020-02-10 02:15:38.560000 世界标准时间 | 2020-02-10 02:56:38.784500 世界标准时间 | 错误的 |
| ABC | 6789 | 26 | 2020-02-10 04:44:21.356999 世界标准时间 | 2020-02-10 06:57:11.501000 世界标准时间 | 错误的 |
我尝试创建一个用户定义的函数,该函数将在表中搜索具有相同时间但不具有重叠时间的会话,site_id但user_id它失败session_id得很惨。我几乎不好意思把这个放在这里,但是……到底是什么。
CREATE TEMPORARY FUNCTION getConcurrentSessions(_site_id STRING, _user_id INT64, _session_id INT64, _start_time TIMESTAMP, _end_time TIMESTAMP)
AS
(
(
SELECT count(session_id)
FROM `session_log`
WHERE site_id = _site_id
AND user_id = _user_id
AND session_id != _session_id
AND (
(_start_time BETWEEN start_time AND end_time)
OR
(_end_time BETWEEN start_time AND end_time)
)
)
);
SELECT site_id, user_id, session_id, start_time, end_time,
IF (
getConcurrentSessions(site_id, user_id, session_id, start_time, end_time) > 0,
TRUE,
FALSE
) AS concurrent_sessions
FROM session_log
Run Code Online (Sandbox Code Playgroud)
任何和所有的建议表示赞赏。谢谢。
考虑以下方法
select *,
ifnull(start_time <= lag(end_time) over win or
end_time >= lead(start_time) over win, false) as concurrent_session
from your_table
window win as (partition by site_id, user_id order by start_time)
Run Code Online (Sandbox Code Playgroud)
如果应用于我们问题中的样本数据 - 输出是
| 归档时间: |
|
| 查看次数: |
1289 次 |
| 最近记录: |