相关疑难解决方法(0)

AWS Glue:如何在输出中添加带有源文件名的列?

有人知道在Glue作业中将源文件名添加为列的方法吗?

我们创建了一个流程,在其中爬行了S3中的一些文件以创建模式。然后,我们编写了一个作业,将文件转换为新格式,并将这些文件作为CSV写回到另一个S3存储桶中,以供我们的管道的其余部分使用。我们想要做的是访问某种作业元属性,以便我们可以向输出文件中添加一个包含原始文件名的新列。

我浏览了AWS文档和aws-glue-libs源,但没有发现任何问题。理想情况下,将有某种方法可以从awsglue.job包中获取元数据(我们使用的是python风格)。

我仍在学习Glue,因此如果我使用了错误的术语,我们深表歉意。我也用spark标签对其进行了标记,因为我相信这就是Glue在幕后使用的东西。

amazon-web-services apache-spark pyspark aws-glue

5
推荐指数
2
解决办法
3652
查看次数