AWS Batch 故障转移策略

Question

我用于AWS batch执行作业，我正在计算要按内容大小使用的初始内存。大约 90% 的情况下会成功，但 10% 的情况下会失败OutOfMemory error。

因此，对于这个失败的作业的下一次尝试，我想增加内存并再次提交作业。我不能Job Attempts为此使用AWS批处理，我需要不同的故障转移策略。

我可以使用的一种方法是让 lambda 每 1 小时检查一次作业状态，如果失败，则使用额外的内存再次提交作业。

还有其他更好的方法来为 AWS Batch 作业制定故障转移策略吗？

Answer 1

好问题; 我不知道有任何调度程序（LSF、SLURM、AWS Batch）支持此功能，因为恕我直言，这并不是调度程序应该做的事情 - 更多的是执行工作流程的引擎（想想 nextflow / ehive ）；

您可以使用 AWS“containerInsights”监控容器状态 - 请参阅

希望这可以帮助你。