小编Kev*_*n H的帖子

GCP AI Platform 作业卡住了

我正在 AI Platform 上运行一个作业，它运行了一个多小时，没有任何进展、没有结果、没有日志（只有少数日志显示它正在运行）

这是我使用的地区、机器类型和 gpu：

  "region": "us-central1",
  "runtimeVersion": "2.2",
  "pythonVersion": "3.7",
  "masterConfig": {
    "acceleratorConfig": {
      "count": "8",
      "type": "NVIDIA_TESLA_K80"
    }
  }

Run Code Online (Sandbox Code Playgroud)

AI Platform 工作

这项工作只有少数日志

我正在训练的模型很大并且使用了大量内存。这项工作只是挂在那里，没有任何进展、日志或错误。但我注意到它在 GCP 上消耗了 12.81 ML 单位。通常，如果 GPU 内存不足，它会抛出“OOM/resourceExhausted 错误”。没有日志，我不知道那里出了什么问题。

我用较小的输入尺寸运行了不同的工作，它在 12 分钟内成功完成：

成功的工作

此外，我将 tf.MirroredStrategy 用于训练过程，以便它可以跨 GPU 分布。

对此有何想法？

google-cloud-platform tensorflow tensorflow2.0 gcp-ai-platform-training google-ai-platform

Kev*_*n H

2020 11-10

5
推荐指数

0
解决办法

190
查看次数

标签统计

gcp-ai-platform-training ×1

google-ai-platform ×1

google-cloud-platform ×1

tensorflow ×1

tensorflow2.0 ×1

GCP AI Platform 作业卡住了

标签 统计

小编Kev_n H的帖子

标签统计