我正在 AI Platform 上运行一个作业,它运行了一个多小时,没有任何进展、没有结果、没有日志(只有少数日志显示它正在运行)
这是我使用的地区、机器类型和 gpu:
"region": "us-central1",
"runtimeVersion": "2.2",
"pythonVersion": "3.7",
"masterConfig": {
"acceleratorConfig": {
"count": "8",
"type": "NVIDIA_TESLA_K80"
}
}
Run Code Online (Sandbox Code Playgroud)
AI Platform 工作
这项工作只有少数日志
我正在训练的模型很大并且使用了大量内存。这项工作只是挂在那里,没有任何进展、日志或错误。但我注意到它在 GCP 上消耗了 12.81 ML 单位。通常,如果 GPU 内存不足,它会抛出“OOM/resourceExhausted 错误”。没有日志,我不知道那里出了什么问题。
我用较小的输入尺寸运行了不同的工作,它在 12 分钟内成功完成:
成功的工作
此外,我将 tf.MirroredStrategy 用于训练过程,以便它可以跨 GPU 分布。
对此有何想法?
google-cloud-platform tensorflow tensorflow2.0 gcp-ai-platform-training google-ai-platform
tensorflow ×1