AWS Batch 作业卡在可运行状态

Question

AWS Batch 作业卡在可运行状态

Mat*_*ski 6 amazon-web-services aws-batch

我正在尝试运行 100 个节点的 AWS Batch 作业，当我将计算环境设置为仅使用m4.xlarge和m5.xlarge实例时，一切正常，并且我的作业被拾取并运行。

但是，当我开始在我的计算环境中包含其他实例类型（例如）时m5.2xlarge，作业会runnable无限期地停留在该状态。我在这些更新中更改的唯一变量是计算环境中的实例类型。

当我在计算环境中包含其他实例类型时，我不确定是什么导致无法完成这项工作。在计算环境参数的文档中，唯一的说明是：

创建计算环境时，您为计算环境选择的实例类型必须共享相同的架构。例如，您不能在同一计算环境中混合使用 x86 和 ARM 实例。

的JobDefinition是多节点：

节点 0
- vCPU：1
- 内存：15360 MiB
节点 1：
- vCPU：2
- 内存：15360 MiB

我的计算环境最大 vCPUs 设置为10,000，始终处于VALID状态并且始终处于ENABLED。另外我的 EC2 vCPU 限制是6,000. CloudWatch 不提供任何日志，因为作业尚未启动，我不确定在这里还可以尝试什么。我也没有使用optimal实例类型的设置，因为我遇到了没有获得足够实例的问题。

Answer 1

Mat*_*ski 5

我刚刚解决了这个问题，问题出在BEST_FIT批处理中的策略上。我提交的作业与实例类型不够接近，因此它们永远不会被选中。

我通过修改作业定义以使用8 vCPU and 30GB内存来解决这个问题，并且作业从m5.2xlarge实例开始。

我将看看使用该BEST_FIT_PROGRESSIVE策略是否可以解决这个问题并报告回来，尽管我怀疑它会。

--

更新：我已经与 AWS Support 进行了交谈并获得了更多见解。分配BEST_FIT_PROGRESSIVE策略具有针对过度扩展的内置保护，以便客户不会意外启动数千个实例。尽管这有我所经历的副作用，导致工作无法启动。

支持工程师的建议是在计算环境和分配策略中使用单一实例类型BEST_FIT。由于我的作业有不同的实例要求，我能够成功创建三个针对不同实例类型 ( c5.large, c5.xlarge, m4.xlarge) 的独立计算环境，提交作业并让它们在适当的计算环境中运行。

归档时间：	5 年，5 月前
查看次数：	520 次
最近记录：	4 年，9 月前