我使用 Google Cloud Build 和 kaniko 缓存来提高速度。直到最近,如果工作得很好,但现在却失败了
ERROR: build step 2 "gcr.io/kaniko-project/executor:latest" failed: step exited with non-zero status: 137
Run Code Online (Sandbox Code Playgroud)
我认为,这是因为构建器内存不足
有没有办法为此选择更高级别的虚拟机或增加内存?
我使用的是此处描述的相同标准配置。
提前致谢
Ps 常规构建gcr.io/cloud-builders/docker正在经历
我重新启动了 Prometheus pod,现在 Prometheus pod 正在崩溃。在日志中发现这个错误:
level=error ts=2021-06-09T09:27:29.066Z caller=main.go:758 err="opening storage failed: block dir: \"/prometheus/01F6J0P4KBBWVJD2M8B1PE7C5E\": open /prometheus/01F6J0P4KBBWVJD2M8B1PE7C5E/meta.json: no such file or directory"
Run Code Online (Sandbox Code Playgroud)
注意到该01F6J0P4KBBWVJD2M8B1PE7C5E文件夹中只有 chunks 文件夹。
知道为什么会发生这种情况吗?有没有办法解决这个问题?
kubernetes prometheus kubernetes-helm prometheus-operator kubernetes-pod
我正在 GCP 计算引擎上使用支持 GPU 的虚拟机。
作为操作系统,我使用容器优化版本(COS 89-16108.403.47 LTS),它支持通过 SSH 运行“cos-extensions install gpu”来安装简单的 GPU 驱动程序(请参阅Google 文档)。
到目前为止,这一直工作得很好,直到几天前我开始收到一条错误消息,指出某些驱动程序签名的下载失败(请参阅下面的完整错误消息),从那以后我就无法让它工作。
有人可以确认我在这里遇到错误或帮助我解决此问题吗?
提前谢谢了!
~ $ cos-extensions install gpu
Unable to find image 'gcr.io/cos-cloud/cos-gpu-installer:v2.0.3' locally
v2.0.3: Pulling from cos-cloud/cos-gpu-installer
419e7ae5bb1e: Pull complete
6f6ec2441524: Pull complete
11d24f918ba9: Pull complete
Digest: sha256:1cf2701dc2c3944a93fd06cb6c9eedfabf323425483ba3af294510621bb37d0e
Status: Downloaded newer image for gcr.io/cos-cloud/cos-gpu-installer:v2.0.3
I0618 06:33:49.227680 1502 main.go:21] Checking if this is the only cos_gpu_installer that is running.
I0618 06:33:49.258483 1502 install.go:74] Running on COS build id 16108.403.47
I0618 06:33:49.258505 1502 installer.go:187] …Run Code Online (Sandbox Code Playgroud) gpu trigonometry virtual-machine google-compute-engine google-container-optimized-os
当描述一个节点时,会出现历史条件。
Conditions:
Type Status LastHeartbeatTime LastTransitionTime Reason Message
---- ------ ----------------- ------------------ ------ -------
NetworkUnavailable False Tue, 10 Aug 2021 10:55:23 +0700 Tue, 10 Aug 2021 10:55:23 +0700 CalicoIsUp Calico is running on this node
MemoryPressure False Mon, 16 Aug 2021 12:02:18 +0700 Thu, 12 Aug 2021 14:55:48 +0700 KubeletHasSufficientMemory kubelet has sufficient memory available
DiskPressure False Mon, 16 Aug 2021 12:02:18 +0700 Thu, 12 Aug 2021 14:55:48 +0700 KubeletHasNoDiskPressure kubelet has no disk pressure
PIDPressure False Mon, 16 Aug …Run Code Online (Sandbox Code Playgroud) 我正在尝试了解 Kubernetes,但我遇到了热重载的问题。
在开发模式下,当我只处理代码时,我需要将代码直接与 Pod 同步,就像在 Docker 中使用卷来保持状态一样。
有没有机会让它与 Kubernetes 一起工作?
我将感谢任何有关 Kubernetes 的帮助......
我已将集群上的 VPA 启用为只读模式,并尝试收集 VPA 推荐数据。但我找不到特定于 Vertical Pod Autoscaling 的良好文档或任何 API 详细信息。我已经为 Horizontal Pod Autoscaler 找到了它,但没有为 VPA 找到了它。
我v1.22.1在裸机 CentOS 中设置了一个 Kubernetes 集群。我在按照此链接设置 Nginx Ingress 控制器时遇到问题。
我按照步骤 1-3 进行了完全相同的操作,但CrashLoopBackOff在 nginx 入口控制器 pod 中出现错误。我检查了 pod 的日志,发现如下:
[root@dev1 deployments]# kubectl logs -n nginx-ingress nginx-ingress-5cd5c7549d-hw6l7
I0910 23:15:20.729196 1 main.go:271] Starting NGINX Ingress controller Version=1.12.1 GitCommit=6f72db6030daa9afd567fd7faf9d5fffac9c7c8f Date=2021-09-08T13:39:53Z PlusFlag=false
W0910 23:15:20.770569 1 main.go:310] The '-use-ingress-class-only' flag will be deprecated and has no effect on versions of kubernetes >= 1.18.0. Processing ONLY resources that have the 'ingressClassName' field in Ingress equal to the class.
F0910 23:15:20.774788 1 main.go:314] …Run Code Online (Sandbox Code Playgroud) 当 Pod 因磁盘问题被 Evicted 时,我发现有两个原因:
[DiskPressure]我找到了的节点条件DiskPressure。
有什么不同?
kubernetes ×7
google-api ×1
google-container-optimized-os ×1
gpu ×1
kaniko ×1
nginx ×1
project ×1
prometheus ×1
python ×1
quota ×1
trigonometry ×1
volumes ×1