For*_*ick 4 sql google-bigquery
我有一个 BigQuery 表,其中每一行都是一个国家/地区的用户的访问。架构是这样的:
UserID | Place | StartDate | EndDate | etc ...
---------------------------------------------------------------
134 | Paris | 234687432 | 23648949 | etc ...
153 | Bangkok | 289374897 | 2348709 | etc ...
134 | Paris | 9287324892 | 3435438 | etc ...
Run Code Online (Sandbox Code Playgroud)
“地点”列的值最多可以有数十个选项,但我事先并不知道它们。
我想查询该表,以便在结果表中将列命名为“地点”列的所有可能性,并且值是每个用户在该地点的访问总数。最终结果应该是这样的:
UserID | Paris | Bangkok | Rome | London | Rivendell | Alderaan
----------------------------------------------------------------
134 | 2 | 0 | 0 | 0 | 0 | 0
153 | 0 | 1 | 0 | 0 | 0 | 0
Run Code Online (Sandbox Code Playgroud)
我想我可以选择“Place”的所有可能值,SELECT DISTINCT但是如何实现结果表的这种结构?
谢谢
以下是 BigQuery 标准 SQL
第 1 步 - 使用“place”字段的所有可能值动态组合正确的 SQL 语句
#standardSQL
SELECT '''
SELECT UserID,''' || STRING_AGG(DISTINCT
' COUNTIF(Place = "' || Place || '") AS ' || REPLACE(Place, ' ', '_')
) || ''' FROM `project.dataset.table`
GROUP BY UserID
'''
FROM `project.dataset.table`
Run Code Online (Sandbox Code Playgroud)
注意:您将得到一行输出,其中包含如下文本(已拆分为多行以便更好地阅读
SELECT UserID,
COUNTIF(Place = "Paris") AS Paris,
COUNTIF(Place = "Los Angeles") AS Los_Angeles
FROM `project.dataset.table`
GROUP BY UserID
Run Code Online (Sandbox Code Playgroud)
笔记; 我替换Bangkok为,Los Angeles所以你明白为什么用下划线替换可能的空格很重要
第 2 步 - 只需复制第 1 步的输出文本并运行即可
显然,您可以使用您选择的任何客户端自动执行上述两个步骤