我正在使用BigQuery大约50亿行,可以在~100万个密钥上进行分区.
由于我们的查询通常是通过分区键,是否可以创建~1百万个表(1个表/键)来限制处理的总字节数?
我们还需要一起查询所有数据,这很容易通过将它们全部放在一个表中来实现,但我希望使用相同的平台进行分区分析作为批量分析.
这可能会有效,但是非常不鼓励对这个表进行细分.您可能最好将数据分区为较少数量的表(例如10或100),并仅查询所需的表.
沮丧的是什么意思?首先,这些百万表中的每一个都将收取至少10 MB的存储空间.因此,当您可能拥有的数据少于此数量时,您将需要支付9 TB的存储费用.其次,当您尝试创建那么多表时,您可能会达到速率限制.第三,管理一百万张桌子非常棘手; BigQuery UI可能没有多大帮助.第四,你会让BigQuery上的工程师非常脾气暴躁,他们会开始试图弄清楚我们是否需要提高表格的最小尺寸.
此外,如果您确实希望有时查询所有数据,那么精细分区可能会让您感到困难,除非您愿意多次存储数据.您只能在查询中引用1000个表,并且您引用的每个表都会导致性能下降.
归档时间: |
|
查看次数: |
141 次 |
最近记录: |