小编jay*_*345的帖子

Bigquery 导出拆分为多个文件,其中包含一些空文件

我正在尝试使用 bigquery 导出功能将数据以 json 格式推送到 GCS。在该过程结束时,为了验证 GCS 文件中导出的记录计数,我创建了一个具有自动模式检测功能的外部表,只是为了获取导出的 GCS 文件中的记录计数。

这适用于单个导出的文件。但对于大小大于 1GB 的表,我使用通配符来拆分为多个文件。这会产生多个文件,并创建一些空文件。

空文件在查询外部表时导致错误:“400 架构没有字段”。

请向以下人员提出任何想法:

  1. 确保在多个文件场景的导出操作中不会创建空文件
  2. 在创建外部表时忽略空文件。
  3. 导出操作后计算 GCS 中记录数量的任何其他方法

json export external-tables google-bigquery

6
推荐指数
1
解决办法
2407
查看次数

标签 统计

export ×1

external-tables ×1

google-bigquery ×1

json ×1