BigQuery"超出资源"; 可能是罪魁祸首?

Ser*_*eia 0 google-bigquery

我正在使用新的Github数据集学习BigQuery,并且由于超出资源,我对提交数据集的查询仍然失败.我将SQL修剪为此代码,但仍然失败:

SELECT
  commit,
  FIRST(repo_name) AS repo_name,
  FIRST(author.email) AS author_email,
  FIRST(author.time_sec) AS time,
  SUM(LENGTH(message)) AS len_commit_msg,
  COUNT(difference.new_path) AS num_files
FROM
  [bigquery-public-data:github_repos.commits]
GROUP BY
  commit
ORDER BY
  repo_name,
  time
Run Code Online (Sandbox Code Playgroud)

有问题的数据集很大(150米行),我想要的只是一个提交列表,其中包含有关它们的基本信息(提交消息的长度和更改的文件的数量).

这个例子中有什么特别错的吗?我已经尝试更改SUM(LENGTH(消息))部分和COUNT()无效.或者对于大查询来说,排序部分是否禁止?

我还检查了之前的"资源超出"问题,答案与PARTITION,JOIN或GROUP EACH BY的问题有关,我已经避免了.

Mik*_*ant 5

ORDER BY很贵 - 试试没有它

  • 此外,如果您只关心前N个有序结果,请添加"LIMIT N",查询将成功. (2认同)
  • 乔丹说 - 你可能不关心排序1.5亿行,所以不要整理整个结果集 - LIMIT 100. (2认同)