如何限制从bigquery导出到gcs的文件大小?

use*_*606 5 google-cloud-storage google-bigquery

我使用python代码将数据从bigquery导出到gcs,然后使用gsutil导出到s3!但是导出到gcs后,我注意到一些文件超过5 GB,这是gsutil无法处理的?所以我想知道限制尺寸的方法

Mik*_*ant 1

尝试使用单个通配符 URI

请参阅文档 Exporting data into one or more files

如果您认为导出的数据将 大于 BigQuery 的每个文件 1 GB 的最大值,请使用单个通配符 URI。BigQuery 根据提供的模式将数据分片为多个文件。如果您在文件名以外的 URI 组件中使用通配符,请确保在导出数据之前路径组件不存在。

属性定义:

['gs://[YOUR_BUCKET]/文件名-*.json']

创建:

gs://my-bucket/file-name-000000000000.json
gs:
//my-bucket/file-name-000000000001.json gs://my-bucket/file-name-000000000002.json ...

属性定义:

['gs://[YOUR_BUCKET]/path-component-*/file-name.json']

创建:

gs://my-bucket/path-component-000000000000/file-name.json
gs://my-bucket/path-component-000000000001/file-name.json
gs://my-bucket/path-component- 000000000002/文件名.json