小编Oli*_*Oli的帖子

无法在 GKE 中使用 GPU 运行 pod:2 不足 nvidia.com/gpu 错误

我们按照本指南在现有集群中使用支持 GPU 的节点,但是当我们尝试调度 pod 时,我们得到了2 Insufficient nvidia.com/gpu error

细节:

我们正在尝试在现有集群中使用 GPU,为此我们能够成功创建一个 NodePool,其中单个节点启用了 GPU。

然后,下一步根据上面的指南,我们创建一个守护进程集,并且我们也能够成功运行 DS。

但现在,当我们尝试使用以下资源部分来调度 Pod 时,Pod 会因此错误而变得无法调度2 insufficient nvidia.com/gpu

    resources:
      limits:
        nvidia.com/gpu: "1"
      requests:
        cpu: 200m
        memory: 3Gi
Run Code Online (Sandbox Code Playgroud)

眼镜:

Node version - v1.18.17-gke.700 (+ v1.17.17-gke.6000) tried on both
Instance type - n1-standard-4
image - cos
GPU - NVIDIA Tesla T4
Run Code Online (Sandbox Code Playgroud)

任何进一步调试的帮助或指示将受到高度赞赏。

TIA,


kubectl get node <gpu-node> -o yaml[已编辑]的输出

apiVersion: v1
kind: Node
metadata:
  labels:
    beta.kubernetes.io/arch: amd64
    beta.kubernetes.io/instance-type: n1-standard-4
    beta.kubernetes.io/os: linux
    cloud.google.com/gke-accelerator: nvidia-tesla-t4
    cloud.google.com/gke-boot-disk: …
Run Code Online (Sandbox Code Playgroud)

kubernetes google-kubernetes-engine

8
推荐指数
1
解决办法
5099
查看次数