Snowflake - 如何从 S3 中的 parquet 文件读取元数据

dov*_*ben 4 amazon-s3 parquet snowflake-cloud-data-platform

我们在 Snowflake 数据库中使用外部表,以便从某些 AWS S3 存储桶读取数据。这些存储桶包含分布在多个分区上的各种镶木地板文件。

我们能够使用 Snowflake 的阶段存储集成文件格式从外部表中读取数据。

然而,我们还想从镶木地板文件中读取一些元数据,例如数字数据类型的精度(例如,找出我们必须处理多少位小数)。

为了简单起见,假设我们正在从一个 parquet 文件中读取数据。

有没有办法直接从 Snowflake 从该镶木地板文件中检索有关数字数据类型精度的元数据?

或者您愿意从 Glue Catalog 或任何其他外部工具中提取元数据?

Gre*_*lik 5

最近的公开预览版推断了可以执行此操作的架构:

INFER_SCHEMA(
  LOCATION => '{ internalStage | externalStage }'
  , FILE_FORMAT => '<format_name>'
)
Run Code Online (Sandbox Code Playgroud)

https://docs.snowflake.com/en/sql-reference/functions/infer_schema.html