如何告诉 SGE 停止将工作分配给计算节点?

Ric*_*lds 5 sun

我想将一个节点(或一组节点)标记为“离线”,因为我希望 Sun Grid Engine 停止向它们分配新工作。这将用于节点本身的某种维护工作。节点应该完成分配给它们的任何工作,然后进入某种空闲(“离线”)状态。我一直在寻找 qconf 文档,但在任何方法中都找不到这个用例。

Ric*_*lds 6

搜索使我找到了 qmod 实用程序。我做了一个简单的测试

qmod -d QUEUENAME.q@MACHINENAME

这似乎有效,尽管我实际上还没有在作业运行时尝试过。qstat 输出更改为指示节点已禁用 - 出现“d”标志。

qmod -e QUEUENAME.q@MACHINENAME

将再次启用机器。

在我们的集群上,机器被命名为 worker-##-##,其中两个数字是机架号和等级号。我们只运行一个主队列,称为“all.q”。我们集群中的机器在 qstat 输出中以“.local”后缀列出。所以上面的命令最终是

qmod -d all.q@worker-9-9.local

在第 9 个机架上取机器,从排队轮换中排第 9 位。