小编gop*_*chi的帖子

Snowflake没有扣除Parquet中按列分区

我对 Snowflake 的新功能 - Infer Schema 表功能有疑问。INFER SCHEMA 函数在 parquet 文件上表现出色,并返回正确的数据类型。但是,当 parquet 文件被分区并存储在 S3 中时,INFER SCHEMA 无法像 pyspark 数据帧那样发挥作用。

在DataFrames中,分区文件夹名称和值作为最后一列读取;有没有办法在 Snowflake Infer 模式中达到相同的结果?

例子:

在此输入图像描述

@GregPavlik - 输入采用结构化镶木地板格式。当 parquet 文件存储在没有分区的 S3 中时,可以完美导出架构。

示例:{ "AGMT_GID": 1714844883, "AGMT_TRANS_GID": 640481290, "DT_RECEIVED": "20 302", "LATEST_TRANSACTION_CODE": "I" }

Snowflake 推断模式为我提供了 4 个列名称及其数据类型。

但是,如果镶木地板文件存储在分区中 - 如上图所示。

在 - LATEST_TRANSACTION_CODE =I/ 文件夹下,我会将文件作为

示例:{“AGMT_GID”:1714844883,“AGMT_TRANS_GID”:640481290,“DT_RECEIVED”:“20 302”}

在这种情况下,雪花推断模式仅提供三列;但是,读取 Pyspark 数据框中的同一文件会打印所有四列。

我想知道 Snowflake 中是否有解决方法来读取分区的镶木地板文件。

parquet snowflake-cloud-data-platform

5
推荐指数
1
解决办法
1348
查看次数