AWS胶中的transformation_ctx是什么?

Che*_*rry 10 amazon-web-services aws-glue

API 有很多方法都使用默认的“”值来接收此方法。

它只是字符串标记,但又有什么用?

Lor*_*rin 10

认为这就是正在发生的事情。我希望 AWS 文档能够明确说明这一点。

仅书签只能让您拾取下一条数据(例如,S3 中的下一个文件)。但对于使用动态框架的复杂作业,作业本身是有状态的。要恢复处理,您不仅需要获取下一个输入,还需要恢复上次运行期间在动态框架中建立的状态。这transformation_ctx就像保存动态帧状态的文件名。您必须为其命名,因为 AWS Glue 不会分析您的脚本来确定哪个动态帧调用是哪个。

主要从Tracking Processed Data using Job Bookmarks推断出来,这是其他答案链接的同一页面,但由于引用了它,所以有一些澄清的文本:

许多 AWS Glue PySpark 动态框架方法都包含一个名为 conversion_ctx 的可选参数,它是 ETL 运算符实例的唯一标识符。conversion_ctx 参数用于识别给定操作员的作业书签内的状态信息。具体来说,AWS Glue 使用 conversion_ctx 将键索引到书签状态。


小智 5

许多AWS Glue PySpark动态框架方法都包含一个名为transformation_ctx的可选参数,该参数用于标识作业书签的状态信息。如果不传递transformation_ctx参数,则不会为该方法中使用的动态框架或表启用作业书签。

https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html

  • 但是你应该传递什么? (4认同)