为什么Cloudwatch停止记录Sagemaker?

Mar*_*oma 9 logging amazon-cloudwatch amazon-cloudwatchlogs amazon-sagemaker

我有一个Sagemaker实例现在运行了一段时间.我没有改变它们之间的任何东西,但现在我再也看不到Cloudwatch上的新日志了.旧日志仍然存在,但是从2天开始没有新的日志.

Sagemaker实例仍在运行.它只是不再记录了.由于代码没有改变,我没有任何时间依赖,我很确定我达到了极限.但我不知道哪一个:

  • 日志组只有一个日志流
  • 单个日志流的大小为175MB.

我发现CloudWatch Logs LimitsCloudWatch Events Limits,但这对我没有帮助.

可能是什么问题呢?我怎么调查呢?

根据AWS文档,这不应该发生.一般AWS支持没有帮助.

Leo*_*opd 1

首先,听起来你并没有做错什么。日志应该直接显示在 CloudWatch 中,您无需执行任何操作,也没有大小或时间限制。如果它们完全启动,那么我们就知道权限设置正确 - 除非您在运行过程中修改了 IAM。如果日志在作业中停止,则可能是实际作业由于某种原因停止输出到 stdout/stderr,或者这是服务日志处理的操作故障。联系 AWS 支持人员(在此处、AWS 论坛或通过技术支持)是处理此问题的正确方法 - 向 AWS 中的人员提供账户 ID 和作业名称将使他们能够准确调查发生的情况。

另外,很抱歉,这么长时间以来,这个问题一直没有得到答复。从这里的活动来看,似乎很多人都遇到过这个问题。但我也猜测并希望问题是暂时的内部服务故障,并且已经解决。如果有人仍然看到这个问题(2018 年 10 月之后),请发表评论,以便我们知道它仍然需要关注。或者更好的是提出一个新问题(从 SO 的角度来看并不理想,但这更有可能引起 AWS 某人的注意)。

感谢您使用 Amazon SageMaker,并感谢您的反馈!

- AWS 员工