ROB*_* AI 7 google-compute-engine
救命!救命!救命!
这真的很烦人,我几乎忍不住了!我正在使用谷歌云计算引擎实例,但他们经常意外地重新启动而没有提前通知.实例的重启似乎是随机发生的,我不知道那里出了什么问题!当重启发生时,我很确定实例已被占用(CPU使用率> 50%且所有GPU都在使用中).谁能告诉我如何解决这个问题?提前致谢!
问题就在这里:
所有GPU都在使用中
GPU实例必须终止主机维护事件,但可以自动重启.这些维护事件通常每周发生一次,但必要时可以更频繁地发生.您必须配置工作负载以干净地处理这些维护事件.具体而言,长时间运行的工作负载(如机器学习和高性能计算(HPC))必须处理主机维护事件的中断.了解如何使用GPU处理实例上的主机维护事件.
这是因为连接GPU的实例无法迁移到其他主机进行维护,因为其他虚拟机会发生这种情况.为了获得连接到实例的物理GPU和裸机性能,您正在使用GPU直通,这很遗憾地意味着如果主机必须进行维护,则VM会随之崩溃.
这听起来像抢占式虚拟机实例。
抢占式实例的功能与普通实例类似,但具有以下限制:
要使用 gcloud cli 检查您的实例是否可抢占,只需运行
gcloud compute instances describe instance-name --format="(scheduling.preemptible)"
Run Code Online (Sandbox Code Playgroud)
结果
scheduling:
preemptible: false
Run Code Online (Sandbox Code Playgroud)
将“instance-name”更改为真实姓名。
要检查在您的实例上执行的系统操作,您可以使用以下命令进行检查:
gcloud compute operations list
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
3775 次 |
| 最近记录: |