小编not*_*ami的帖子

Google Kubernetes Engine 节点池不会从 0 个节点自动扩展

我正在尝试在 GKE 上运行机器学习作业，并且需要使用 GPU。

我使用 Tesla K80 创建了一个节点池，如本演练中所述。

我将最小节点大小设置为 0，并希望自动缩放器会根据我的工作自动确定我需要多少个节点：

gcloud container node-pools create [POOL_NAME] \
--accelerator type=nvidia-tesla-k80,count=1 --zone [COMPUTE_ZONE] \
--cluster [CLUSTER_NAME] --num-nodes 3 --min-nodes 0 --max-nodes 5 \
--enable-autoscaling

Run Code Online (Sandbox Code Playgroud)

最初，没有需要 GPU 的作业，因此集群自动缩放器正确地将节点池缩小到 0。

但是，当我使用以下规范创建作业时

resources:
  requests:
    nvidia.com/gpu: "1"
  limits:
    nvidia.com/gpu: "1"

Run Code Online (Sandbox Code Playgroud)

这是完整的作业配置。（请注意，此配置是部分自动生成的。我还删除了一些与问题无关的环境变量）。

在Insufficient nvidia.com/gpu我手动将节点池增加到至少 1 个节点之前，Pod一直处于挂起状态。

这是 GPU 节点池的当前限制，还是我忽略了什么？

graphics-processing-unit kubernetes google-kubernetes-engine nvidia

not*_*ami

2019 04-11

7
推荐指数

1
解决办法

3325
查看次数

标签统计

google-kubernetes-engine ×1

graphics-processing-unit ×1

kubernetes ×1

nvidia ×1

Google Kubernetes Engine 节点池不会从 0 个节点自动扩展

标签 统计

小编not_ami的帖子

标签统计