小编Fel*_*ffa的帖子

如何将压缩文件加载到BigQuery中

我想将http://dumps.wikimedia.org/other/pagecounts-raw/上的维基百科综合浏览量上传到BigQuery,最快的方法是什么?

google-bigquery

5
推荐指数
1
解决办法
2499
查看次数

如何在 Google Compute Engine 上对 BigQuery 进行身份验证?

在 Google Compute Engine 实例上进行 Google BigQuery 身份验证的最简单方法是什么?

python bash curl google-bigquery google-compute-engine

5
推荐指数
1
解决办法
1777
查看次数

我每天都有关于BigQuery的表格.如何查询"最新"的?

我创建每日表.如何查询"最新"的?

例如,GitHubArchive现在发布每日表 - 而不是单一表(参见/r/bigquery/.../github_archive_changes_monthly_and_daily_tables/).

google-bigquery

5
推荐指数
1
解决办法
1414
查看次数

任何可以容忍 NULL 值的 CONCAT() 变体?

当任何值为 NULL 时,CONCAT() 返回 NULL。我必须使用 IFNULL() 来包装传递给 CONCAT() 的所有字段。是否有忽略 NULL 的 CONCAT() 变体?

例如:

#standardSQL
WITH data AS (
  SELECT 'a' a, 'b' b, CAST(null AS STRING) nu
)

SELECT CONCAT(a, b, nu) concatenated, ARRAY_TO_STRING([a,b,nu], ',') w_array_to_string
FROM `data`

--->
null
Run Code Online (Sandbox Code Playgroud)

sql google-bigquery

5
推荐指数
2
解决办法
3755
查看次数

改进BigQuery不区分大小写的搜索性能

BigQuery团队再次罢工:这个问题不再相关,因为LOWER()的结果与REGEX()现在一样快.


使用BigQuery处理~5GB的数据应该超级快.例如,以下查询在18秒内执行不区分大小写的搜索:

#standardSQL
SELECT COUNT(*) c
FROM `bigquery-public-data.hacker_news.full` 
WHERE 
  LOWER(text) LIKE '%bigquery%' # 18s
Run Code Online (Sandbox Code Playgroud)

通常BigQuery比这更快,但真正的问题是添加新的搜索词会使这个查询相当慢(几乎一分钟有3个搜索词):

#standardSQL
SELECT COUNT(*) c
FROM `bigquery-public-data.hacker_news.full` 
WHERE 
  LOWER(text) LIKE '%bigquery%' OR LOWER(text) LIKE '%big query%' # 34s

#standardSQL
SELECT COUNT(*) c
FROM `bigquery-public-data.hacker_news.full` 
WHERE 
  LOWER(text) LIKE '%bigquery%' OR LOWER(text) LIKE '%big query%'
  OR LOWER(text) LIKE '%google cloud%' # 52s
Run Code Online (Sandbox Code Playgroud)

如何提高查询性能?

performance google-bigquery

5
推荐指数
1
解决办法
662
查看次数

BigQuery SQL:平均值、几何平均值、删除异常值、中位数

我正在计算在 Stack Overflow 上得到回复的平均时间,结果毫无意义。

#standardSQL

WITH question_answers AS (
  SELECT * 
    , timestamp_diff(answers.first, creation_date, minute) minutes
  FROM (
    SELECT creation_date
      , (SELECT AS STRUCT MIN(creation_date) first, COUNT(*) c
         FROM `bigquery-public-data.stackoverflow.posts_answers` b
         WHERE a.id=b.parent_id
        ) answers
      , SPLIT(tags, '|') tags
    FROM `bigquery-public-data.stackoverflow.posts_questions` a
    WHERE EXTRACT(year FROM creation_date) > 2015
  ), UNNEST(tags) tag
  WHERE tag IN ('java', 'javascript', 'google-bigquery', 'firebase', 'php')
  AND answers.c > 0
)

SELECT tag
  , COUNT(*) questions
  , ROUND(AVG(minutes), 2) first_reply_avg_minutes
FROM question_answers
GROUP BY tag
Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明

我应该如何计算平均时间?

sql google-bigquery

5
推荐指数
1
解决办法
7413
查看次数

我想要“实时物化视图”,以及任何行的最新信息

我将此解决方案视为物化视图的替代方案:

但它使用最多每 3 小时运行一次的预定查询。我的用户期待实时数据,我该怎么办?

google-bigquery

5
推荐指数
1
解决办法
1658
查看次数

5
推荐指数
1
解决办法
493
查看次数

控制和监视 BI Engine Reservations 的使用

使用新的测试版 BI Engine Reservations,我注意到有些查询加快了速度,但其他查询没有受到影响。是否有可能 - 监控预订的使用情况?- 对预订的使用方式有一定的控制权?

google-bigquery google-data-studio google-bi-engine

5
推荐指数
1
解决办法
419
查看次数

如何拆分 CSV 或 JSON 文件以获得最佳 Snowflake 摄取?

Snowflake 建议在摄取之前分割大文件:

为了优化负载的并行操作数量,我们建议目标是生成压缩后大小约为 100-250 MB(或更大)的数据文件。https://docs.snowflake.com/en/user-guide/data-load-considerations-prepare.html

分割大文件并压缩它们的最佳方法是什么?

gzip split command-line-interface snowflake-cloud-data-platform

5
推荐指数
1
解决办法
3526
查看次数