mig*_*esh 5 amazon-web-services aws-lambda aws-batch
我用于AWS batch执行作业,我正在计算要按内容大小使用的初始内存。大约 90% 的情况下会成功,但 10% 的情况下会失败OutOfMemory error。
因此,对于这个失败的作业的下一次尝试,我想增加内存并再次提交作业。我不能Job Attempts为此使用AWS批处理,我需要不同的故障转移策略。
我可以使用的一种方法是让 lambda 每 1 小时检查一次作业状态,如果失败,则使用额外的内存再次提交作业。
还有其他更好的方法来为 AWS Batch 作业制定故障转移策略吗?
小智 0
好问题; 我不知道有任何调度程序(LSF、SLURM、AWS Batch)支持此功能,因为恕我直言,这并不是调度程序应该做的事情 - 更多的是执行工作流程的引擎(想想 nextflow / ehive );
您可以使用 AWS“containerInsights”监控容器状态 - 请参阅
https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/Container-Insights-metrics-ECS.html
希望这可以帮助你。
| 归档时间: |
|
| 查看次数: |
379 次 |
| 最近记录: |