消除BigQuery表中的重复记录

use*_*408 9 google-bigquery

我计划每天将增量数据附加到BigQuery表.每次我将增量数据添加到现有表时,我想从表中的现有数据中消除重复记录(基于主键列).一种方法是 -

  1. 从增量数据中收集密钥集(让我们调用它INCR_KEYS)
  2. 在 - 的行上运行查询SELECT all_cols from table where pkey_col NOT IN (INCR_KEYS),并将结果存储在新表中.
  3. 将增量数据附加到新表.

我对这种方法的关注是它创建了一个大表的副本并添加到我的账单中.

如果没有创建重复的表,是否有更好的方法来实现相同的目标?

Jor*_*ani 5

我不知道如何在不创建重复表的情况下实现此目的 - 这实际上听起来像是一个非常聪明的解决方案.

但是,增加的成本可能非常小--BigQuery只会根据数据的存在时间向您收取费用.如果删除旧表,则只需要在几秒或几分钟内为两个表付费.