ECS 任务启动失败且无日志

nek*_*kel 5 amazon-web-services amazon-ecs

我正在尝试在 AWS ECS 上部署一项服务,但任务无法启动并在 3-4 分钟后失败。没有找到失败的日志。它只是从 PENDING -> STOPPED 发生变化。

在此输入图像描述

在像这样的任务上发生几次失败(待处理 -> 已停止)后,服务会在几次重试后启动,并从待处理 -> 正在运行,没有任何中断。我正在尝试调试为什么它在正确运行之前多次出现(待处理 -> 停止)。

该服务的 Docker 镜像约为 10GB,服务部署在 GD4N.xlarge 实例上。

看起来在拉取 10GB 的 docker 镜像并停止时超时。我已尝试设置 ECS_CONTAINER_START_TIMEOUT 但仍然失败,并在相同的时间下出现相同的错误,并在 3-4 分钟内失败。 https://docs.aws.amazon.com/AmazonECS/latest/developerguide/ecs-agent-config.html

            autoScalingGroup.addUserData(...[
                `echo ECS_CONTAINER_START_TIMEOUT=9m >> /etc/ecs/ecs.config`,  // increasing the start timeout for containers
                `echo ECS_CONTAINER_CREATE_TIMEOUT=9m >> /etc/ecs/ecs.config`,  // increasing the create timeout for containers
                `echo ECS_LOGLEVEL=debug >> /etc/ecs/ecs.config`,  // debug mode for ecs agent
                `echo ECS_IMAGE_PULL_BEHAVIOR=prefer-cached >> /etc/ecs/ecs.config`,  // debug mode for ecs agent
                `echo ECS_IMAGE_PULL_INACTIVITY_TIMEOUT=5m >> /etc/ecs/ecs.config`,  // debug mode for ecs agent
            ])
Run Code Online (Sandbox Code Playgroud)

我正在寻找有关如何进一步调试的方向?以及如何将超时从“待处理”增加到“正在运行”,这样它就不会停止。