当我有潜在的重复行时,我应该如何每天在 BigQuery 中导入数据?
这是一些背景信息。我每天都会将数据从电子表格更新到 BigQuery。我正在使用 Google App Script 和简单的 WRITE_APPEND 方法。
有时我会导入前一天已经导入的数据。所以我想知道如何避免这种情况?
我可以构建一个 SQL 查询来每天清除表中的重复行吗?或者,即使在导入它们之前也可以检测到重复项(例如,使用我的作业定义中的某些特定命令......)?
谢谢 !
(需要#standardSql)
#standardSQL
INSERT INTO `fh-bigquery.tt.test_import_native` (id, data)
SELECT *
FROM `fh-bigquery.tt.test_import_sheet`
WHERE id NOT IN (
SELECT id
FROM `fh-bigquery.tt.test_import_native`
)
Run Code Online (Sandbox Code Playgroud)
WHERE id NOT IN (...)确保只有具有新 ID 的行才会加载到表中。
| 归档时间: |
|
| 查看次数: |
3081 次 |
| 最近记录: |