为什么我的Google云计算实例总是意外重启？

Question

救命!救命!救命!

这真的很烦人,我几乎忍不住了!我正在使用谷歌云计算引擎实例,但他们经常意外地重新启动而没有提前通知.实例的重启似乎是随机发生的,我不知道那里出了什么问题!当重启发生时,我很确定实例已被占用(CPU使用率> 50%且所有GPU都在使用中).谁能告诉我如何解决这个问题？提前致谢!

Answer 1

问题就在这里:

所有GPU都在使用中

如果您查看有关GPU的官方文档:

GPU实例必须终止主机维护事件,但可以自动重启.这些维护事件通常每周发生一次,但必要时可以更频繁地发生.您必须配置工作负载以干净地处理这些维护事件.具体而言,长时间运行的工作负载(如机器学习和高性能计算(HPC))必须处理主机维护事件的中断.了解如何使用GPU处理实例上的主机维护事件.

这是因为连接GPU的实例无法迁移到其他主机进行维护,因为其他虚拟机会发生这种情况.为了获得连接到实例的物理GPU和裸机性能,您正在使用GPU直通,这很遗憾地意味着如果主机必须进行维护,则VM会随之崩溃.

Answer 2

抢占式实例的功能与普通实例类似，但具有以下限制：

由于系统事件，Compute Engine 可能随时终止抢占式实例。Compute Engine 因系统事件而终止抢占式实例的概率通常很低，但可能会根据当前条件每天、不同区域而有所不同。
Compute Engine 始终会在抢占式实例运行 24 小时后终止它们。

要使用 gcloud cli 检查您的实例是否可抢占，只需运行

gcloud compute instances describe instance-name --format="(scheduling.preemptible)"

结果

scheduling:
  preemptible: false

将“instance-name”更改为真实姓名。

或者只需通过 UI，单击计算实例并向下滚动：

要检查在您的实例上执行的系统操作，您可以使用以下命令进行检查：

gcloud compute operations list