现在,我通过轮询作业 REST API 来监控我在 Google AI Platform(以前称为 ml 引擎)上提交的作业。我不喜欢这个解决方案有几个原因:
我希望在我的培训工作完成后立即收到通知。如果有某种方法可以在作业状态更改时分配挂钩或回调以运行,那就太好了。
我还考虑过在 AI Platform 上运行的训练任务 python 包中直接添加对云函数的调用。但是,我认为这些函数调用不会发生在训练作业意外关闭的情况下,例如当作业被 GCP 取消或强制结束时。
有没有更好的方法来解决这个问题?
google-cloud-platform google-cloud-ml gcp-ai-platform-training