我正在使用 slurm 运行多个数组作业。对于给定的数组作业 ID(假设为 885881),我想列出失败作业和已完成作业的计数。像这样的东西:
输入:
<some-command> -j 885881
Run Code Online (Sandbox Code Playgroud)
输出:假设数组中有 200 个作业。
count | status
120 | failed
80 | completed
Run Code Online (Sandbox Code Playgroud)
其次,如果我能够获得任务失败的唯一原因列表,那就太好了。
输入:
`<some-command> -j 885881`
Run Code Online (Sandbox Code Playgroud)
输出:
count | reason
80 | OUT_OF_MEMORY
40 | TIMED_OUT
Run Code Online (Sandbox Code Playgroud)
我相信sacct可以利用命令以某种方式获得这些结果,但不确定如何实现。