AWS Batch 故障转移策略

mig*_*esh 5 amazon-web-services aws-lambda aws-batch

我用于AWS batch执行作业,我正在计算要按内容大小使用的初始内存。大约 90% 的情况下会成功,但 10% 的情况下会失败OutOfMemory error

因此,对于这个失败的作业的下一次尝试,我想增加内存并再次提交作业。我不能Job Attempts为此使用AWS批处理,我需要不同的故障转移策略

我可以使用的一种方法是让 lambda 每 1 小时检查一次作业状态,如果失败,则使用额外的内存再次提交作业。

还有其他更好的方法来为 AWS Batch 作业制定故障转移策略吗?

小智 0

好问题; 我不知道有任何调度程序(LSF、SLURM、AWS Batch)支持此功能,因为恕我直言,这并不是调度程序应该做的事情 - 更多的是执行工作流程的引擎(想想 nextflow / ehive );

您可以使用 AWS“containerInsights”监控容器状态 - 请参阅

https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Container-Insights-metrics-ECS.html

希望这可以帮助你。