Mat*_*ski 6 amazon-web-services aws-batch
我正在尝试运行 100 个节点的 AWS Batch 作业,当我将计算环境设置为仅使用m4.xlarge和m5.xlarge实例时,一切正常,并且我的作业被拾取并运行。
但是,当我开始在我的计算环境中包含其他实例类型(例如 )时m5.2xlarge,作业会runnable无限期地停留在该状态。我在这些更新中更改的唯一变量是计算环境中的实例类型。
当我在计算环境中包含其他实例类型时,我不确定是什么导致无法完成这项工作。在计算环境参数的文档中,唯一的说明是:
创建计算环境时,您为计算环境选择的实例类型必须共享相同的架构。例如,您不能在同一计算环境中混合使用 x86 和 ARM 实例。
的JobDefinition是多节点:
我的计算环境最大 vCPUs 设置为10,000,始终处于VALID状态并且始终处于ENABLED。另外我的 EC2 vCPU 限制是6,000. CloudWatch 不提供任何日志,因为作业尚未启动,我不确定在这里还可以尝试什么。我也没有使用optimal实例类型的设置,因为我遇到了没有获得足够实例的问题。
我刚刚解决了这个问题,问题出在BEST_FIT批处理中的策略上。我提交的作业与实例类型不够接近,因此它们永远不会被选中。
我通过修改作业定义以使用8 vCPU and 30GB内存来解决这个问题,并且作业从m5.2xlarge实例开始。
我将看看使用该BEST_FIT_PROGRESSIVE策略是否可以解决这个问题并报告回来,尽管我怀疑它会。
--
更新:我已经与 AWS Support 进行了交谈并获得了更多见解。分配BEST_FIT_PROGRESSIVE策略具有针对过度扩展的内置保护,以便客户不会意外启动数千个实例。尽管这有我所经历的副作用,导致工作无法启动。
支持工程师的建议是在计算环境和分配策略中使用单一实例类型BEST_FIT。由于我的作业有不同的实例要求,我能够成功创建三个针对不同实例类型 ( c5.large, c5.xlarge, m4.xlarge) 的独立计算环境,提交作业并让它们在适当的计算环境中运行。
| 归档时间: |
|
| 查看次数: |
520 次 |
| 最近记录: |