lor*_*isi 3 keras tensorflow amazon-sagemaker
我们正在运行类型为 (1) ml.p3.8xlarge和 (2) ml.p3.2xlarge的两个 TrainingJob 实例。
每个训练作业都使用 Tensorflow 和 Keras 后端运行自定义算法。
实例 (1) 运行正常,而实例 (2) 在报告的 1 小时训练时间后,在 CloudWatch 中进行任何日志记录(任何文本拖曳日志)时,都会退出并出现以下错误:
Failure reason
CapacityError: Unable to provision requested ML compute capacity. Please retry using a different ML instance type.
Run Code Online (Sandbox Code Playgroud)
我不确定这条消息的含义。
此消息意味着 SageMaker 尝试启动该实例,但 EC2 没有足够的该实例容量,因此在等待一段时间(在本例中为 1 小时)后,SageMaker 放弃并导致训练作业失败。
有关 ec2 容量问题的更多信息,请访问: routing-launch-capacity
要解决此问题,您可以按照失败原因中的建议尝试使用不同实例类型运行作业,或者等待几分钟,然后按照 EC2 的建议再次提交请求。
| 归档时间: |
|
| 查看次数: |
6867 次 |
| 最近记录: |