我在集群环境中的 openSUSE 12.1 上使用扭矩 4.0.1。当我 qsub 一项工作(简单为“echo hello”)时,它保持在“Q”状态,并且永远不会被安排。我可以强制使用 qrun 运行作业,并且它在第一个节点上执行而没有错误。
过去几天我试图找到解决方案,但失败了。我看了手册,日志,甚至源代码,但仍然无法定位问题。当然,我用谷歌搜索了很多,尝试了各种解决方案,但没有一个奏效。
以下是一些可能有用的信息:
05/13/2012 18:55:08;0002; pbs_sched;Svr;Log;Log opened
05/13/2012 18:55:08;0002; pbs_sched;Svr;TokenAct;Account file /var/spool/torque/sched_priv/accounting/20120513 opened
05/13/2012 18:55:08;0002; pbs_sched;Svr;main;pbs_sched startup pid 32604
Run Code Online (Sandbox Code Playgroud)
05/13/2012 19:33:08;0002;PBS_Server;Svr;PBS_Server;Torque Server Version = 4.0.1, loglevel = 0
05/13/2012 19:33:56;0100;PBS_Server;Job;16.head;enqueuing into batch, state 1 hop 1
05/13/2012 19:33:56;0008;PBS_Server;Job;16.head;Job Queued at request of pubuser@head, owner = pubuser@head, job name = STDIN, queue = batch
Run Code Online (Sandbox Code Playgroud)
Job Id: 16.head
Job_Name = STDIN
Job_Owner = pubuser@head
job_state …Run Code Online (Sandbox Code Playgroud)