lor*_*ist
5
google-bigquery
我们现在运行BigQuery大约4个月,我们有一些有趣的观察和有关价格的问题:
- 定价模型是无法解释的,需要对连接,工会等进行解释
- 如果我在小型表上运行连接,我的数据处理将增加每个在bigquery引擎内倍增的小表的副本?
- 如果我在查询中重用相同的子查询,这是新的数据处理,无论它是否是相同的子查询?这可以以任何方式进行优化吗?不是bigquery缓存它的数据吗?
- 是否有用于数据处理的最小尺寸?我们的观察认为它是4MB,这是正确的吗?
- 在谷歌控制台中,地理位置存在问题,它表示大多数查询是从CA完成的,这是不正确的,因为我的公司在欧洲并且所有开发都在那里完成.我检查了所有IP地址,没有CA IP.是否有可能获得更详细的报告?
- 关于5,我们希望获得每个查询和价格的历史记录.我们应该怎么做?我们的软件必须这样做吗?
- 关于3)我在数据处理方面存在这个巨大的问题(这就是我提出所有问题的原因).我的整个数据集大约150mb,但每个查询的DP大小是3倍大?如果bigquery读取我的整个数据,它将无法达到它在处理数据时显示的大小.什么情况下数据将被重新读取,从而会发生新的DP?你怎么算这个?
谢谢.
此致,托米斯拉夫