如何了解 slurm 上正在运行的作业的实时内存使用情况?

meT*_*sky 6 slurm

我对cpu如何与内存通信知之甚少,所以我\xe2\x80\x99m不确定这是否是一个\xe2\x80\x98正确的\xe2\x80\x99问题。

\n\n

在我提交到 slurm 集群的作业脚本中,该脚本需要从存储在工作字典中的数据库读取数据。我想监视运行此脚本所使用的内存。

\n\n

我如何编写 bash 脚本来执行此操作?我已经尝试过@CoffeeNerd的脚本。然而,当作业运行时,文件中只有一行输出

\n\n
AveCPU|AveRSS|MaxRSS\n
Run Code Online (Sandbox Code Playgroud)\n\n

如何修改此脚本以输出实时内存使用情况?

\n\n

我知道sstat命令,但我不确定类似的东西是否sstat -j $JOBID.batch --format=MaxVMSize可以解决我的问题。

\n

dam*_*ois 2

Slurm 有一个插件,可以将作业的“配置文件”(PCU 使用情况、内存使用情况等)记录到HDF5文件中。它保存每个测量项目的时间序列。

使用

#SBATCH --profile=<all|none|[energy[,|task[,|filesystem[,|network]]]]>
Run Code Online (Sandbox Code Playgroud)

来激活它。

请参阅此处的文档。