AWS Glue - GlueContext：从 S3 读取分区数据，将分区添加为 DynamicFrame 的列

Question

我有一些数据以镶木地板格式存储在 S3 存储桶中，遵循类似蜂巢的分区样式，并具有以下分区键：零售商 - 年 - 月 - 日。

例如

my-bucket/
   retailer=a/
         year=2020/
         ....
   retailer=b/
         year=2020/
            month=2/
         ...

我想在 sagemaker 笔记本中读取所有这些数据，并且希望将分区作为 DynamicFrame 的列，这样当我读取时df.printSchema()，它们就会被包含在内。

如果我使用 Glue 建议的方法，分区不会包含在我的架构中。这是我正在使用的代码：

my-bucket/
   retailer=a/
         year=2020/
         ....
   retailer=b/
         year=2020/
            month=2/
         ...

相反，通过使用普通的 Spark 代码和 DataFrame 类，它可以工作，并且分区包含在我的架构中：

df = spark.read.parquet('s3://my-bucket/')。

我想知道是否有办法使用 AWS Glue 的特定方法来做到这一点。

Answer 1

也许你可以尝试爬行数据并使用 from_catalog 选项读取它。虽然我认为 U don\xe2\x80\x99t 不需要提及分区键，因为它应该看到 = 意味着它\xe2\x80\x99s 是一个分区。特别是考虑到胶水只是火花的包装物

\n