小编Fel_ffa的帖子

如何将压缩文件加载到BigQuery中

我想将http://dumps.wikimedia.org/other/pagecounts-raw/上的维基百科综合浏览量上传到BigQuery,最快的方法是什么？

google-bigquery

5
推荐指数

1
解决办法

2499
查看次数

如何在 Google Compute Engine 上对 BigQuery 进行身份验证？

在 Google Compute Engine 实例上进行 Google BigQuery 身份验证的最简单方法是什么？

python bash curl google-bigquery google-compute-engine

5
推荐指数

1
解决办法

1777
查看次数

我每天都有关于BigQuery的表格.如何查询"最新"的？

我创建每日表.如何查询"最新"的？

例如,GitHubArchive现在发布每日表 - 而不是单一表(参见/r/bigquery/.../github_archive_changes_monthly_and_daily_tables/).

google-bigquery

5
推荐指数

1
解决办法

1414
查看次数

任何可以容忍 NULL 值的 CONCAT() 变体？

当任何值为 NULL 时，CONCAT() 返回 NULL。我必须使用 IFNULL() 来包装传递给 CONCAT() 的所有字段。是否有忽略 NULL 的 CONCAT() 变体？

例如：

#standardSQL
WITH data AS (
  SELECT 'a' a, 'b' b, CAST(null AS STRING) nu
)

SELECT CONCAT(a, b, nu) concatenated, ARRAY_TO_STRING([a,b,nu], ',') w_array_to_string
FROM `data`

--->
null

Run Code Online (Sandbox Code Playgroud)

sql google-bigquery

5
推荐指数

2
解决办法

3755
查看次数

改进BigQuery不区分大小写的搜索性能

BigQuery团队再次罢工:这个问题不再相关,因为LOWER()的结果与REGEX()现在一样快.

使用BigQuery处理~5GB的数据应该超级快.例如,以下查询在18秒内执行不区分大小写的搜索:

#standardSQL
SELECT COUNT(*) c
FROM `bigquery-public-data.hacker_news.full` 
WHERE 
  LOWER(text) LIKE '%bigquery%' # 18s

Run Code Online (Sandbox Code Playgroud)

通常BigQuery比这更快,但真正的问题是添加新的搜索词会使这个查询相当慢(几乎一分钟有3个搜索词):

#standardSQL
SELECT COUNT(*) c
FROM `bigquery-public-data.hacker_news.full` 
WHERE 
  LOWER(text) LIKE '%bigquery%' OR LOWER(text) LIKE '%big query%' # 34s

#standardSQL
SELECT COUNT(*) c
FROM `bigquery-public-data.hacker_news.full` 
WHERE 
  LOWER(text) LIKE '%bigquery%' OR LOWER(text) LIKE '%big query%'
  OR LOWER(text) LIKE '%google cloud%' # 52s

Run Code Online (Sandbox Code Playgroud)

如何提高查询性能？

performance google-bigquery

5
推荐指数

1
解决办法

662
查看次数

BigQuery SQL：平均值、几何平均值、删除异常值、中位数

我正在计算在 Stack Overflow 上得到回复的平均时间，结果毫无意义。

#standardSQL

WITH question_answers AS (
  SELECT * 
    , timestamp_diff(answers.first, creation_date, minute) minutes
  FROM (
    SELECT creation_date
      , (SELECT AS STRUCT MIN(creation_date) first, COUNT(*) c
         FROM `bigquery-public-data.stackoverflow.posts_answers` b
         WHERE a.id=b.parent_id
        ) answers
      , SPLIT(tags, '|') tags
    FROM `bigquery-public-data.stackoverflow.posts_questions` a
    WHERE EXTRACT(year FROM creation_date) > 2015
  ), UNNEST(tags) tag
  WHERE tag IN ('java', 'javascript', 'google-bigquery', 'firebase', 'php')
  AND answers.c > 0
)

SELECT tag
  , COUNT(*) questions
  , ROUND(AVG(minutes), 2) first_reply_avg_minutes
FROM question_answers
GROUP BY tag

Run Code Online (Sandbox Code Playgroud)

我应该如何计算平均时间？

sql google-bigquery

5
推荐指数

1
解决办法

7413
查看次数

我想要“实时物化视图”，以及任何行的最新信息

我将此解决方案视为物化视图的替代方案：

我想要最新记录的“物化视图”

但它使用最多每 3 小时运行一次的预定查询。我的用户期待实时数据，我该怎么办？

google-bigquery

5
推荐指数

1
解决办法

1658
查看次数

反向地理编码：如何使用BigQuery SQL确定最接近（纬度，经度）的城市？

我收集了很多点-我想确定每个点最近的城市。我该如何使用BigQuery？

sql gis geocoding reverse-geocoding google-bigquery

5
推荐指数

1
解决办法

493
查看次数

控制和监视 BI Engine Reservations 的使用

使用新的测试版 BI Engine Reservations，我注意到有些查询加快了速度，但其他查询没有受到影响。是否有可能 - 监控预订的使用情况？- 对预订的使用方式有一定的控制权？

google-bigquery google-data-studio google-bi-engine

5
推荐指数

1
解决办法

419
查看次数

如何拆分 CSV 或 JSON 文件以获得最佳 Snowflake 摄取？

Snowflake 建议在摄取之前分割大文件：

为了优化负载的并行操作数量，我们建议目标是生成压缩后大小约为 100-250 MB（或更大）的数据文件。https://docs.snowflake.com/en/user-guide/data-load-considerations-prepare.html

分割大文件并压缩它们的最佳方法是什么？

gzip split command-line-interface snowflake-cloud-data-platform

5
推荐指数

1
解决办法

3526
查看次数

标签统计

google-bigquery ×9

sql ×3

bash ×1

command-line-interface ×1

curl ×1

gis ×1

google-bi-engine ×1

google-compute-engine ×1

google-data-studio ×1

gzip ×1

performance ×1

reverse-geocoding ×1

snowflake-cloud-data-platform ×1

«
1
2
3
4
5
…
7
»