Ale*_* Oh 7 amazon-web-services apache-spark pyspark aws-glue
有什么不同?我知道DynamicFrame是为AWS Glue创建的,但是AWS Glue也支持DataFrame。什么时候应在AWS Glue中使用DynamicFrame?
Fan*_*ang 20
DynamicFrame 在处理内存密集型作业时更安全。“具有 AWS Glue 动态帧的执行程序内存永远不会超过安全阈值”,而另一方面,Spark DataFrame 可能会在执行程序上遇到“内存不足”问题。(https://docs.aws.amazon.com/glue/latest/dg/monitor-profile-debug-oom-abnormalities.html)
DynamicFrames 旨在在处理可能缺少声明模式的杂乱数据时提供最大的灵活性。记录以灵活的自描述方式表示,可以保留有关数据中模式不一致的信息。
例如,随着需求的变化,在某些记录中存储为字符串的地址列可能在后面的行中存储为结构体。DynamicFrames 不会失败或退回到字符串,而是会跟踪这两种类型,并为用户提供许多解决这些不一致问题的选项,通过 ResolveChoice 转换提供细粒度分辨率选项。
DynamicFrames 还提供了许多在 DataFrames 中没有的强大的高级 ETL 操作。例如,Relationalize 转换可用于将复杂的嵌套数据展平和旋转到适合传输到关系数据库的表中。此外,ApplyMapping 转换支持以声明方式进行复杂的重命名和转换。
DynamicFrames 还与 AWS Glue 数据目录集成,因此从表创建框架是一项简单的操作。写入数据库可以通过连接完成,而无需指定密码。此外,DynamicFrames 与作业书签集成,因此在作业系统中运行这些脚本可以让脚本隐式地跟踪读取和写入的内容。(https://github.com/aws-samples/aws-glue-samples /blob/master/FAQ_and_How_to.md )
您可以参考此处的文档:DynamicFrame Class。它说,
DynamicFrame 类似于 DataFrame,不同之处在于每个记录都是自描述的,因此最初不需要架构。
你想在DynamicFrame什么时候使用,
注意:您也可以将 转换DynamicFrame为DataFrame使用toDF()
| 归档时间: |
|
| 查看次数: |
3764 次 |
| 最近记录: |