小编lid*_*ing的帖子

扭矩 pbs 4.0.1 作业保持排队('Q')状态;调度程序似乎没有收到任何通知

我在集群环境中的 openSUSE 12.1 上使用扭矩 4.0.1。当我 qsub 一项工作(简单为“echo hello”)时,它保持在“Q”状态,并且永远不会被安排。我可以强制使用 qrun 运行作业,并且它在第一个节点上执行而没有错误。

过去几天我试图找到解决方案,但失败了。我看了手册,日志,甚至源代码,但仍然无法定位问题。当然,我用谷歌搜索了很多,尝试了各种解决方案,但没有一个奏效。

以下是一些可能有用的信息:

  • pbs_sched 正在运行,但它的日志似乎表明它没有收到有关正在排队的作业的通知。

    05/13/2012 18:55:08;0002; pbs_sched;Svr;Log;Log opened
    05/13/2012 18:55:08;0002; pbs_sched;Svr;TokenAct;Account file /var/spool/torque/sched_priv/accounting/20120513 opened
    05/13/2012 18:55:08;0002; pbs_sched;Svr;main;pbs_sched startup pid 32604
Run Code Online (Sandbox Code Playgroud)
  • pbs_server 日志仅显示作业已排队进入默认队列批处理:

    05/13/2012 19:33:08;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 4.0.1, loglevel = 0
    05/13/2012 19:33:56;0100;PBS_Server;Job;16.head;enqueuing into batch, state 1 hop 1
    05/13/2012 19:33:56;0008;PBS_Server;Job;16.head;Job Queued at request of pubuser@head, owner = pubuser@head, job name = STDIN, queue = batch
Run Code Online (Sandbox Code Playgroud)
  • qstat -f 16 显示没有任何用处

    Job Id: 16.head
    Job_Name = STDIN
    Job_Owner = pubuser@head
    job_state …
Run Code Online (Sandbox Code Playgroud)

torque pbs

5
推荐指数
0
解决办法
5913
查看次数

标签 统计

pbs ×1

torque ×1