为什么BigQuery在非大数据量上这么慢?

Dav*_*542 18 google-bigquery google-cloud-platform

我们发现BigQuery可以很好地处理大于100M行的数据集,其中"初始化时间"并没有真正生效(或者与查询的其余部分相比可以忽略不计).

但是,在任何情况下,性能都很慢而且很差,这使得它(1)不适合在交互式BI工具中工作; (2)不如其他产品,如Redshift甚至ElasticSearch,其数据大小在100M以下.实际上,我们组织的一名工程师正在评估一项技术,该技术用于对具有大约1000名用户的分析产品进行1M到100M行数据大小的查询,他的反馈是他无法相信BigQuery的速度有多慢.

如果没有对BigQuery产品的辩护,我想知道是否有任何改进计划:

  1. BigQuery的速度 - 特别是它的初始化时间 - 对非海量数据集的查询?
  2. BigQuery是否能够在特定大小的数据集上对"常规"查询(例如简单聚合组)提供亚秒响应时间?

Ell*_*ard 12

花在元数据/启动上的时间,但实际执行时间非常短.我们正在进行的工作将解决这个问题,但有些变化很复杂,需要一段时间.

您可以想象,在其初期阶段,BigQuery可以拥有用于管理作业,元数据等的中央系统,其方式对于使用该服务的所有N 0实体执行得非常好.然而,一旦你到达N 1个实体,可能有必要重新构造一些东西,使它们具有尽可能小的延迟.有关新功能的通知 - 这也是我们宣布与启动延迟相关的API改进的地方 - 请关注我们的发行说明,您也可以将其订阅为RSS源.

  • @Elliott Brossard - 是否有您推荐的相关 Google 产品来对较小的数据集(10M 及以下)进行聚合查询?我已经使用 Cloud Spanner 进行了测试,但在该大小的聚合查询上性能相当差。 (2认同)
  • @Murta我把它作为一张票(在我看来是BQ中最重要的单一'特征'),但它似乎没有ETA,我的猜测是不会修复的.您也可以尝试发布彩票:https://issuetracker.google.com/issues/67021275 (2认同)