Kin*_*ede 4 machine-learning amazon-web-services tensorflow amazon-sagemaker
在 Amazon SageMaker 中运行 ML 训练作业时,训练脚本会被“部署”并提供一个 ML 训练实例,该实例需要大约 10 分钟才能启动并获取所需的数据。
我只能从训练作业中收到一条错误消息,然后它就会终止,实例也会随之被终止。
在对训练脚本进行更改以修复该问题后,我需要部署并运行它,这还需要 10 分钟左右。
如何更快地完成此任务,或保持训练实例运行?
小智 5
您似乎正在使用 SageMaker 框架之一运行训练作业。鉴于此,您可以使用 SageMaker 的“本地模式”功能,它将在笔记本实例中本地运行您的训练作业(特别是容器)。这样,您就可以迭代脚本直到它起作用。然后,如果需要,您可以继续访问远程训练集群,根据整个数据集训练模型。要使用本地模式,只需将实例类型设置为“本地”即可。有关本地模式的更多详细信息,请访问https://github.com/aws/sagemaker-python-sdk#sagemaker-python-sdk-overview和博客文章: https: //aws.amazon.com/blogs/machine -学习/使用-amazon-sagemaker-local-mode-to-train-on-your-notebook-instance/