为什么在使用 sbatch SLURM 时总是出现 NonZeroExitCode?

use*_*387 5 linux slurm sbatch

我有一个使用以下命令运行的简单 test.ksh:

批量测试.ksh

我不断收到“JobState=FAILED Reason=NonZeroExitCode”(使用“scontrol show job”)

我已经确定了以下几点:

  1. slurmd 和 slurmctld 已启动并正常运行
  2. “test.ksh”的用户权限是 777。
  3. 命令“srun test.ksh”(本身,不使用sbatch)成功没有问题
  4. 我尝试在“test.ksh”的最后一行输入“return 0”而没有运气
  5. 我尝试在“test.ksh”的最后一行中放入“exit 0”而没有运气
  6. 我尝试在“test.ksh”的最后一行输入“hostname”,但没有运气
  7. 我尝试在“test.ksh”的最后一行输入“srun hostname”,但没有运气

use*_*387 5

我发现我没有设置 --error 和 --output,这意味着默认值是我发出命令的当前目录。

问题是我没有足够的权限写入当前目录。

解决方案是将 --error 和 --output 设置为目录到我有权限的地方。