我想将http://dumps.wikimedia.org/other/pagecounts-raw/上的维基百科综合浏览量上传到BigQuery,最快的方法是什么?
在 Google Compute Engine 实例上进行 Google BigQuery 身份验证的最简单方法是什么?
我创建每日表.如何查询"最新"的?
例如,GitHubArchive现在发布每日表 - 而不是单一表(参见/r/bigquery/.../github_archive_changes_monthly_and_daily_tables/).
当任何值为 NULL 时,CONCAT() 返回 NULL。我必须使用 IFNULL() 来包装传递给 CONCAT() 的所有字段。是否有忽略 NULL 的 CONCAT() 变体?
例如:
#standardSQL
WITH data AS (
SELECT 'a' a, 'b' b, CAST(null AS STRING) nu
)
SELECT CONCAT(a, b, nu) concatenated, ARRAY_TO_STRING([a,b,nu], ',') w_array_to_string
FROM `data`
--->
null
Run Code Online (Sandbox Code Playgroud) BigQuery团队再次罢工:这个问题不再相关,因为LOWER()的结果与REGEX()现在一样快.
使用BigQuery处理~5GB的数据应该超级快.例如,以下查询在18秒内执行不区分大小写的搜索:
#standardSQL
SELECT COUNT(*) c
FROM `bigquery-public-data.hacker_news.full`
WHERE
LOWER(text) LIKE '%bigquery%' # 18s
Run Code Online (Sandbox Code Playgroud)
通常BigQuery比这更快,但真正的问题是添加新的搜索词会使这个查询相当慢(几乎一分钟有3个搜索词):
#standardSQL
SELECT COUNT(*) c
FROM `bigquery-public-data.hacker_news.full`
WHERE
LOWER(text) LIKE '%bigquery%' OR LOWER(text) LIKE '%big query%' # 34s
#standardSQL
SELECT COUNT(*) c
FROM `bigquery-public-data.hacker_news.full`
WHERE
LOWER(text) LIKE '%bigquery%' OR LOWER(text) LIKE '%big query%'
OR LOWER(text) LIKE '%google cloud%' # 52s
Run Code Online (Sandbox Code Playgroud)
如何提高查询性能?
我正在计算在 Stack Overflow 上得到回复的平均时间,结果毫无意义。
#standardSQL
WITH question_answers AS (
SELECT *
, timestamp_diff(answers.first, creation_date, minute) minutes
FROM (
SELECT creation_date
, (SELECT AS STRUCT MIN(creation_date) first, COUNT(*) c
FROM `bigquery-public-data.stackoverflow.posts_answers` b
WHERE a.id=b.parent_id
) answers
, SPLIT(tags, '|') tags
FROM `bigquery-public-data.stackoverflow.posts_questions` a
WHERE EXTRACT(year FROM creation_date) > 2015
), UNNEST(tags) tag
WHERE tag IN ('java', 'javascript', 'google-bigquery', 'firebase', 'php')
AND answers.c > 0
)
SELECT tag
, COUNT(*) questions
, ROUND(AVG(minutes), 2) first_reply_avg_minutes
FROM question_answers
GROUP BY tag
Run Code Online (Sandbox Code Playgroud)
我应该如何计算平均时间?
我收集了很多点-我想确定每个点最近的城市。我该如何使用BigQuery?
使用新的测试版 BI Engine Reservations,我注意到有些查询加快了速度,但其他查询没有受到影响。是否有可能 - 监控预订的使用情况?- 对预订的使用方式有一定的控制权?
Snowflake 建议在摄取之前分割大文件:
为了优化负载的并行操作数量,我们建议目标是生成压缩后大小约为 100-250 MB(或更大)的数据文件。https://docs.snowflake.com/en/user-guide/data-load-considerations-prepare.html
分割大文件并压缩它们的最佳方法是什么?
gzip split command-line-interface snowflake-cloud-data-platform
sql ×3
bash ×1
curl ×1
geocoding ×1
gis ×1
gzip ×1
performance ×1
python ×1
snowflake-cloud-data-platform ×1
split ×1