写一个 spark 数据帧或写一个胶水动态帧,AWS Glue 中哪个选项更好?

mig*_*use 1 amazon-web-services dataframe apache-spark apache-spark-sql aws-glue

在 AWS Glue 中,我从胶水动态框架中的数据目录中读取数据。然后将动态帧转换为火花数据帧以应用模式转换。为了将数据写回 s3,我看到开发人员将数据帧转换回动态帧。写一个胶水动态帧比写一个火花数据帧有什么优势吗?

Ema*_*man 5

您会发现有一些功能仅适用于使用数据帧时无法访问的动态帧编写器类:

  1. 当您想要利用到 JDBC 源的连接时,也可以写入基于s3 源的目录表。即使用from_jdbc_conf
  2. 使用格式glueparquet作为格式写入镶木地板。
  3. 使用书签跟踪目标位置中已处理的文件

这些是我能想到的一些用例,但如果您有一个需要使用保存模式的用例,例如,mode('overwrite')您可以使用数据框。然而,动态框架中存在类似的方法,但实现方式略有不同。你可以看看[purge_s3_path][3]然后写。