小编wtf*_*mbo的帖子

我有一些数据以镶木地板格式存储在 S3 存储桶中，遵循类似蜂巢的分区样式，并具有以下分区键：零售商 - 年 - 月 - 日。

例如

my-bucket/
   retailer=a/
         year=2020/
         ....
   retailer=b/
         year=2020/
            month=2/
         ...

我想在 sagemaker 笔记本中读取所有这些数据，并且希望将分区作为 DynamicFrame 的列，这样当我读取时df.printSchema()，它们就会被包含在内。

如果我使用 Glue 建议的方法，分区不会包含在我的架构中。这是我正在使用的代码：

my-bucket/
   retailer=a/
         year=2020/
         ....
   retailer=b/
         year=2020/
            month=2/
         ...

相反，通过使用普通的 Spark 代码和 DataFrame 类，它可以工作，并且分区包含在我的架构中：

df = spark.read.parquet('s3://my-bucket/')。

我想知道是否有办法使用 AWS Glue 的特定方法来做到这一点。

6
推荐指数

1
解决办法

3172
查看次数

小编wtf_mbo的帖子