小编rob*_*oby的帖子

为什么在胶水 pyspark ETL 作业中无法添加到镶木地板表中的新列?

我们一直在探索使用 Glue 将一些 JSON 数据转换为 parquet。我们尝试过的一个场景是向镶木地板表添加一列。所以分区 1 有 [A] 列,分区 2 有 [A,B] 列。然后我们想编写更多的 Glue ETL 作业来聚合 parquet 表,但新列不可用。使用glue_context.create_dynamic_frame.from_catalog加载动态帧我们的新列从来没有在架构。

我们为我们的表格爬虫尝试了几种配置。所有分区使用单一架构,s3 路径使用单一架构,每个分区使用架构。我们总是可以看到 Glue 表数据中的新列,但如果我们使用 pyspark 从 Glue 作业中查询它,它总是为空。当我们下载一些样本并且可以通过 Athena 查询时,该列位于镶木地板中。

为什么 pyspark 无法使用新列?

parquet pyspark aws-glue

6
推荐指数
1
解决办法
1760
查看次数

标签 统计

aws-glue ×1

parquet ×1

pyspark ×1