GCP - GPU 暂存时间减少

5 boot gpu google-compute-engine google-cloud-platform

我有一个应用程序需要尽可能短的启动时间/TTL,并且 GPU 连接到 GCP CE 中的虚拟机。为了降低成本,我的基础设施依赖于随着需求的增加/减少而启动和停止实例。

我在没有 GPU 的情况下使用自定义图像实现了不到 5 秒的启动时间,但一旦连接 GPU,“运行”时间总是超过 20-30 秒。

我尝试了多种不同的发行版、清晰的 Linux、预打包的 Nvidia 驱动程序映像、Fedora 的最小安装、最小化的 Debian、内核和用户空间的减少 - systemd-analyze 说我的启动时间是 3 秒,但使用 GPU 启动虚拟机需要 20 秒 -跑步前“暂存”30 秒。

当 GPU 连接到 VM 时才会发生这种情况,并且移除后,VM 将在 systemd-analyze 提到的时间内启动。它在所有发行版和启动映像中都是一致的。

我是否缺少任何软件包或文档来加快连接 GPU 的暂存时间,或者这是否是 GCP 的 GPU 实例内部暂存的限制?

我非常感谢任何帮助或建议。

如果您也遇到此问题并想跟踪其进度,我创建了一份问题报告: https://issuetracker.google.com/issues/200575905

小智 1

这是 GCE 和 GKE 的内部限制,目前无法采取很多措施来修复此问题。
然而,我注意到启动时间随着时间的推移而减少,因此这方面有一些改进。您可以通过公共问题跟踪器报告此情况以跟踪开发情况。

您还可以考虑使用承诺使用折扣持续使用折扣。从长远来看,保持实例运行可能是有益的,从而完全避免启动问题。