小编wtf*_*mbo的帖子

AWS Glue - GlueContext:从 S3 读取分区数据,将分区添加为 DynamicFrame 的列

我有一些数据以镶木地板格式存储在 S3 存储桶中,遵循类似蜂巢的分区样式,并具有以下分区键:零售商 - 年 - 月 - 日。

例如

my-bucket/
   retailer=a/
         year=2020/
         ....
   retailer=b/
         year=2020/
            month=2/
         ...
Run Code Online (Sandbox Code Playgroud)

我想在 sagemaker 笔记本中读取所有这些数据,并且希望将分区作为 DynamicFrame 的列,这样当我读取时df.printSchema(),它们就会被包含在内。

如果我使用 Glue 建议的方法,分区不会包含在我的架构中。这是我正在使用的代码:

my-bucket/
   retailer=a/
         year=2020/
         ....
   retailer=b/
         year=2020/
            month=2/
         ...
Run Code Online (Sandbox Code Playgroud)

相反,通过使用普通的 Spark 代码和 DataFrame 类,它可以工作,并且分区包含在我的架构中:

df = spark.read.parquet('s3://my-bucket/')

我想知道是否有办法使用 AWS Glue 的特定方法来做到这一点。

pyspark aws-glue

6
推荐指数
1
解决办法
3172
查看次数

标签 统计

aws-glue ×1

pyspark ×1