小编use*_*408的帖子

消除BigQuery表中的重复记录

我计划每天将增量数据附加到BigQuery表.每次我将增量数据添加到现有表时,我想从表中的现有数据中消除重复记录(基于主键列).一种方法是 -

  1. 从增量数据中收集密钥集(让我们调用它INCR_KEYS)
  2. 在 - 的行上运行查询SELECT all_cols from table where pkey_col NOT IN (INCR_KEYS),并将结果存储在新表中.
  3. 将增量数据附加到新表.

我对这种方法的关注是它创建了一个大表的副本并添加到我的账单中.

如果没有创建重复的表,是否有更好的方法来实现相同的目标?

google-bigquery

9
推荐指数
1
解决办法
7095
查看次数

标签 统计

google-bigquery ×1