Bigquery定价变化?

lor*_*ist 5 google-bigquery

我们现在运行BigQuery大约4个月,我们有一些有趣的观察和有关价格的问题:

  1. 定价模型是无法解释的,需要对连接,工会等进行解释
  2. 如果我在小型表上运行连接,我的数据处理将增加每个在bigquery引擎内倍增的小表的副本?
  3. 如果我在查询中重用相同的子查询,这是新的数据处理,无论它是否是相同的子查询?这可以以任何方式进行优化吗?不是bigquery缓存它的数据吗?
  4. 是否有用于数据处理的最小尺寸?我们的观察认为它是4MB,这是正确的吗?
  5. 在谷歌控制台中,地理位置存在问题,它表示大多数查询是从CA完成的,这是不正确的,因为我的公司在欧洲并且所有开发都在那里完成.我检查了所有IP地址,没有CA IP.是否有可能获得更详细的报告?
  6. 关于5,我们希望获得每个查询和价格的历史记录.我们应该怎么做?我们的软件必须这样做吗?
  7. 关于3)我在数据处理方面存在这个巨大的问题(这就是我提出所有问题的原因).我的整个数据集大约150mb,但每个查询的DP大小是3倍大?如果bigquery读取我的整个数据,它将无法达到它在处理数据时显示的大小.什么情况下数据将被重新读取,从而会发生新的DP?你怎么算这个?

谢谢.

此致,托米斯拉夫

Jor*_*ani 3

  1. 对于连接、联合等,定价非常简单。无论需要读取什么源数据,都只收取一次费用。例如,如果您进行自连接,您仍然只需为一次数据读取付费。
  2. 参见#1。无论 bigquery 内部如何工作,您都应该只收取一次费用。
  3. BigQuery 会尽力缓存数据。如果重新运行查询,则会检查缓存。如果存在缓存命中,您将无需为重新运行查询付费。请注意,仅缓存完整的查询结果;如果修改查询或在子查询中使用它,则不会使用缓存。
  4. BigQuery 向上舍入为 1MB 增量,最小为 10 MB。
  5. 我不知道谷歌控制台中的任何地理位置。您在哪里看到这些信息?
  6. 您可以通过 jobs.list api 获取查询历史记录以及每个查询处理的数据量。
  7. 您能否发送您运行的大于预期的查询的作业 ID?完成的计算为 8 个字节 *(读取的整数和浮点列的行数)+ 2 个字节 *(读取的字符串列中所有字符串的总长度)。

如果这能解答您的问题,请告诉我。