AWS Fargate ResourceInitializationError:无法拉取机密或注册表身份验证:拉取命令失败::信号:被杀死

use*_*708 15 amazon-web-services amazon-ecs amazon-ecr aws-fargate

用这个稍微扯掉我的头发......我正在尝试在公共子网的 VPC 中的 Fargate 上运行 Docker 映像。当我将此作为任务运行时,我得到:

ResourceInitializationError: unable to pull secrets or registry auth: pull
command failed: : signal: killed
Run Code Online (Sandbox Code Playgroud)

如果我通过 NAT 在私有子网中运行任务,它就可以工作。如果我在默认 VPC 的公共子网中运行它,它也可以工作。

我已经检查了这里的建议:

Aws ecs fargate ResourceInitializationError:无法提取机密或注册表身份验证

特别是,我设置了安全组以允许所有流量。还设置了网络 ACL 以允许所有流量。我什至对 IAM 权限非常开放,以尝试消除这种可能性:

任务执行角色有:

   {
        "Action": [
            "kms:*",
            "secretsmanager:*",
            "ssm:*",
            "s3:*",
            "ecr:*",
            "ecs:*",
            "ec2:*"
        ],
        "Resource": "*",
        "Effect": "Allow"
    }
Run Code Online (Sandbox Code Playgroud)

具有信任关系,允许 ecs-tasks 承担此角色:

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Principal": {
        "Service": "ecs-tasks.amazonaws.com"
      },
      "Action": "sts:AssumeRole"
    }
  ]
}
Run Code Online (Sandbox Code Playgroud)

安全组是:

sg-093e79ca793d923ab All traffic All traffic All 0.0.0.0/0
Run Code Online (Sandbox Code Playgroud)

网络 ACL 是:

Inbound
Rule number Type Protocol Port range Source Allow/Deny
100 All traffic All All 0.0.0.0/0    Allow
*   All traffic All All 0.0.0.0/0    Deny

Outbound
Rule number Type Protocol Port range Destination Allow/Deny
100 All traffic All All 0.0.0.0/0    Allow
*   All traffic All All 0.0.0.0/0    Deny
Run Code Online (Sandbox Code Playgroud)

我在子网上设置了流日志,我可以看到流量在两个方向都是 Accept Ok。

我没有设置任何接口终端节点来访问 AWS 服务而无需通过 Internet 网关。

我还在创建时为 Fargate 实例分配了公共 IP 地址。

这应该有效,因为公共子网应该可以通过 Internet 网关访问所有需要的服务。它也适用于默认 VPC 或私有子网。

谁能建议我还应该检查什么来调试它?

Kor*_*lak 17

根据 @nathan 和 @howard-swope 的反馈编辑答案

清单:

  • VPC 已启用“DNS 主机名”和“DNS 解析”
  • “任务执行角色”有权访问ECR。例如具有 AmazonECSTaskExecutionRolePolicy 角色

如果任务在 PUBLIC 子网上运行:

  • 子网可以访问互联网。即为子网分配互联网网关。

  • 创建任务时启用“分配公共IP”。

如果任务在私有子网上运行:

  • 子网可以访问互联网。即为子网分配 NAT 网关。... NAT 网关位于公共子网上

  • @Nathan 我不确定这是否准确。如果您谈论的是 ECS 任务,我不相信它们是从容器中触发的,情况恰恰相反。该任务拉取并启动容器。如果您的容器在私有子网中运行,它们不应该具有公共 IP。这就是私有子网的意义所在,不是吗? (3认同)

val*_*dem 16

的潜在问题之一ResourceInitializationError: unable to pull secrets or registry auth: pull command failed: : signal: killed是禁用Auto-assign public IP。启用它后(从头开始重新创建服务),任务正常运行而没有问题。

在此处输入图片说明

  • 但是,如果您不希望任务拥有公共 IP,该怎么办? (8认同)
  • 对于私有子网,您可能需要有一个 NAT 网关。这也将允许您在没有公共 IP 的情况下执行任务。请注意,NAT 网关非常昂贵。拥有公共 IP 和锁定的安全组通常会更好。 (2认同)
  • 如果没有公共 IP,您的实例将无法与互联网(或者在本例中是 ECR 注册表,位于 vpc 之外)通信,因为接收端不知道将数据包发送回何处。在私有子网的情况下,NAT 网关具有公共 IP(并且它可以将数据包路由回原始实例,因为 NAT 位于子网内部)。 (2认同)

e-m*_*mre 15

对于那些不幸的人来说,还有一件事需要检查。

我的 VPC 中已经有一个互联网网关,为该 VPC 启用了 DNS,所有容器都获得公共 IP,并且执行角色已经可以访问 ECR。但即便如此,我仍然遇到同样的错误。

事实证明问题出在路由表上。我的 VPC 的路由表不包含将出站流量引导至互联网网关的路由,因此我的子网无法访​​问互联网。

将第二行添加到表中,将 0.0.0.0/0 流量路由到互联网网关解决了该问题。

在此输入图像描述


use*_*708 6

事实证明,我没有为 VPC 启用 DNS 支持。一旦启用此功能,它就会起作用。

我没有看到 Fargate 的任何文档中明确提到 DNS 支持 - 我猜它非常明显,或者它如何查找它需要的各种 AWS 服务。但认为在针对此错误消息的回答中值得注意。


Gur*_*pak 6

我面临着同样的问题。但就我而言,我使用 RunTask 操作从 Lambda 函数触发 Fargate 容器。所以在 RunTask 操作中,我没有传递以下参数:

assignPublicIp:已启用

添加此内容后,Container 触发没有任何问题。