我有一些数据以镶木地板格式存储在 S3 存储桶中,遵循类似蜂巢的分区样式,并具有以下分区键:零售商 - 年 - 月 - 日。
例如
my-bucket/
retailer=a/
year=2020/
....
retailer=b/
year=2020/
month=2/
...
Run Code Online (Sandbox Code Playgroud)
我想在 sagemaker 笔记本中读取所有这些数据,并且希望将分区作为 DynamicFrame 的列,这样当我读取时df.printSchema(),它们就会被包含在内。
如果我使用 Glue 建议的方法,分区不会包含在我的架构中。这是我正在使用的代码:
my-bucket/
retailer=a/
year=2020/
....
retailer=b/
year=2020/
month=2/
...
Run Code Online (Sandbox Code Playgroud)
相反,通过使用普通的 Spark 代码和 DataFrame 类,它可以工作,并且分区包含在我的架构中:
df = spark.read.parquet('s3://my-bucket/')。
我想知道是否有办法使用 AWS Glue 的特定方法来做到这一点。
也许你可以尝试爬行数据并使用 from_catalog 选项读取它。虽然我认为 U don\xe2\x80\x99t 不需要提及分区键,因为它应该看到 = 意味着它\xe2\x80\x99s 是一个分区。特别是考虑到胶水只是火花的包装物
\n| 归档时间: |
|
| 查看次数: |
3172 次 |
| 最近记录: |