BigQuery SQL 查询中的动态列名称

For*_*ick 4 sql google-bigquery

我有一个 BigQuery 表,其中每一行都是一个国家/地区的用户的访问。架构是这样的:

UserID   |   Place   |   StartDate   |   EndDate   | etc ...
---------------------------------------------------------------
134      |  Paris    |   234687432   |   23648949  | etc ...
153      |  Bangkok  |   289374897   |   2348709   | etc ...
134      |  Paris    |   9287324892  |   3435438   | etc ...
Run Code Online (Sandbox Code Playgroud)

“地点”列的值最多可以有数十个选项,但我事先并不知道它们。

我想查询该表,以便在结果表中将列命名为“地点”列的所有可能性,并且值是每个用户在该地点的访问总数。最终结果应该是这样的:

UserID | Paris | Bangkok | Rome | London | Rivendell | Alderaan 
----------------------------------------------------------------
134    |  2    |  0      |  0   |  0     |  0        |  0 
153    |  0    |  1      |  0   |  0     |  0        |  0
Run Code Online (Sandbox Code Playgroud)

我想我可以选择“Place”的所有可能值,SELECT DISTINCT但是如何实现结果表的这种结构?

谢谢

Mik*_*ant 5

以下是 BigQuery 标准 SQL

第 1 步 - 使用“place”字段的所有可能值动态组合正确的 SQL 语句

#standardSQL
SELECT '''
SELECT UserID,''' || STRING_AGG(DISTINCT
  ' COUNTIF(Place = "' || Place || '") AS ' || REPLACE(Place, ' ', '_')
) || ''' FROM `project.dataset.table`
GROUP BY UserID
'''
FROM `project.dataset.table`
Run Code Online (Sandbox Code Playgroud)

注意:您将得到一行输出,其中包含如下文本(已拆分为多行以便更好地阅读

SELECT UserID, 
COUNTIF(Place = "Paris") AS Paris, 
COUNTIF(Place = "Los Angeles") AS Los_Angeles 
FROM `project.dataset.table` 
GROUP BY UserID
Run Code Online (Sandbox Code Playgroud)

笔记; 我替换Bangkok为,Los Angeles所以你明白为什么用下划线替换可能的空格很重要

第 2 步 - 只需复制第 1 步的输出文本并运行即可

显然,您可以使用您选择的任何客户端自动执行上述两个步骤