由于CPU不足,Pod处于挂起状态

Chr*_*ris 10 kubernetes google-kubernetes-engine

在我的GCE Kubernetes集群上,我无法再创建pod.

Warning FailedScheduling    pod (www.caveconditions.com-f1be467e31c7b00bc983fbe5efdbb8eb-438ef) failed to fit in any node
fit failure on node (gke-prod-cluster-default-pool-b39c7f0c-c0ug): Insufficient CPU
Run Code Online (Sandbox Code Playgroud)

查看该节点的已分配统计信息

Non-terminated Pods:        (8 in total)
  Namespace         Name                                        CPU Requests    CPU Limits  Memory Requests Memory Limits
  ---------         ----                                        ------------    ----------  --------------- -------------
  default           dev.caveconditions.com-n80z8                            100m (10%)  0 (0%)      0 (0%)      0 (0%)
  default           lamp-cnmrc                                  100m (10%)  0 (0%)      0 (0%)      0 (0%)
  default           mongo-2-h59ly                                   200m (20%)  0 (0%)      0 (0%)      0 (0%)
  default           www.caveconditions.com-tl7pa                            100m (10%)  0 (0%)      0 (0%)      0 (0%)
  kube-system           fluentd-cloud-logging-gke-prod-cluster-default-pool-b39c7f0c-c0ug       100m (10%)  0 (0%)      200Mi (5%)  200Mi (5%)
  kube-system           kube-dns-v17-qp5la                              110m (11%)  110m (11%)  120Mi (3%)  220Mi (5%)
  kube-system           kube-proxy-gke-prod-cluster-default-pool-b39c7f0c-c0ug              100m (10%)  0 (0%)      0 (0%)      0 (0%)
  kube-system           kubernetes-dashboard-v1.1.0-orphh                       100m (10%)  100m (10%)  50Mi (1%)   50Mi (1%)
Allocated resources:
  (Total limits may be over 100%, i.e., overcommitted. More info: http://releases.k8s.io/HEAD/docs/user-guide/compute-resources.md)
  CPU Requests  CPU Limits  Memory Requests Memory Limits
  ------------  ----------  --------------- -------------
  910m (91%)    210m (21%)  370Mi (9%)  470Mi (12%)
Run Code Online (Sandbox Code Playgroud)

当然,我有91%的分配,不能再适合10%.但是不可能过度提交资源吗?

服务器的使用率约为CPU平均值的10%

在此输入图像描述

如果我不能使用更多的资源,那将是一种耻辱.

小智 7

是的,目前不支持过量使用。它正在计划改进http://kubernetes.io/docs/user-guide/compute-resources。github上的相关问题:https : //github.com/kubernetes/kubernetes/issues/168

ps:理论上你可以定义自定义节点容量,但我不确定。

  • 你好。这是一种耻辱。这使得滚动更新变得困难,因为它们由于 CPU 限制而无法工作,尽管它只使用了 10% 的 CPU……任何想法如何解决这个问题? (4认同)

JCM*_*JCM 5

最近,我遇到了同样的问题,经过一些研究,我发现GKE的默认LimitRange请求设置为CPU请求限制100m,可以通过运行进行检查kubectl get limitrange -o=yaml。它将显示如下内容:

apiVersion: v1
items:
- apiVersion: v1
  kind: LimitRange
  metadata:
    annotations:
      kubectl.kubernetes.io/last-applied-configuration: |
        {"apiVersion":"v1","kind":"LimitRange","metadata":{"annotations":{},"name":"limits","namespace":"default"},"spec":{"limits":[{"defaultRequest":{"cpu":"100m"},"type":"Container"}]}}
    creationTimestamp: 2017-11-16T12:15:40Z
    name: limits
    namespace: default
    resourceVersion: "18741722"
    selfLink: /api/v1/namespaces/default/limitranges/limits
    uid: dcb25a24-cac7-11e7-a3d5-42010a8001b6
  spec:
    limits:
    - defaultRequest:
        cpu: 100m
      type: Container
kind: List
metadata:
  resourceVersion: ""
  selfLink: ""
Run Code Online (Sandbox Code Playgroud)

此限制适用于每个容器。因此,例如,如果您有一个4核节点,并假设要为您的2个容器中的每个POD创建一个容器,那么它将仅允许创建约20个容器。

这里的“修复”是更改默认LimitRange设置,即您自己的限制,然后删除旧的Pod,以便使用更新后的值重新创建它们,或者在创建它们时直接设置Pod的限制。

一些阅读材料:

https://kubernetes.io/docs/tasks/configure-pod-container/assign-cpu-resource/#specify-a-cpu-request-and-a-cpu-limit

https://kubernetes.io/docs/tasks/administer-cluster/manage-resources/cpu-default-namespace/#create-a-limitrange-and-a-pod

https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/#how-pods-with-resource-limits-are-run

https://cloud.google.com/blog/products/gcp/kubernetes-best-practices-resource-requests-and-limits

  • 伙计很棒的资源 - 真的帮助了我。谢谢你把它放在一起! (5认同)

Chr*_*row 5

我在尝试部署到集群时遇到了同样的问题。就我而言,我的应用程序的测试分支会自动创建不需要的 pod。要诊断问题,我需要执行以下操作:

kubectl get po

kubectl describe po - 对于现有的 Pod 之一,检查它在哪个节点上运行

kubectl get nodes

kubectl describe node - 查看现有 pod 正在使用的节点的 CPU 使用率,如下所示:

Allocated resources:
  (Total limits may be over 100 percent, i.e., overcommitted.)
  Resource                       Requests      Limits
  --------                       --------      ------
  cpu                            1010m (93%)   4 (210%)
Run Code Online (Sandbox Code Playgroud)

然后,可以使用以下方法删除不需要的 pod:

kubectl get deployments

kubectl delete deployment .... - 然后是我需要删除的 pod 的部署名称。

一旦我删除了足够多的未使用的 pod,我就可以部署新的 pod。