我们有一个由 75 个 Win2k3 节点组成的集群在一个粗粒度的计算集群中工作。该集群位于大量防火墙之后,并驻留在其自己的 VLAN 中。各种规模和类型的作业都在集群上运行,并且所有运行的可执行文件都是定制的。
(ed:关于我们的可执行文件的附加说明)这些作业的持续时间从 30 秒到 7 天不等,并且可能包含一个可执行文件或 2000 个子作业(持续时间较短)。显然,我们正在努力避免 IT 在 7 天的生产作业中安排重启的情况。
我们有调度软件,可以容纳粗粒度集群的所有正常任务,我们可以控制哪些机器处于活动状态以进行提交等。如果 WSUS 以某种方式可编写脚本(或者客户端可以声明它可以关闭),我们可以协调两个系统帮帮忙。
目前,补丁时间表是超级星期二之后的星期日,无论集群上运行什么。每次我们想延迟为长时间运行的生产作业修补机器时,我们都必须要求豁免。基本上,虽然我们的团队负责机器,但我们几乎无法控制 IT 的补丁计划。
我们的 IT 部门将在本周末通过 WSUS 推出一组补丁,并将在周日重启我们所有的 Win2k3 服务器。由于生产工作必须不受限制地继续,我们不能允许这种重启发生。我们得到的确切线路是:
下载补丁并在周日重启的命令已由 WSUS 发送,无法收回。服务器将在周日自动重启。
我们怎样才能阻止这种情况发生?它设置了一些标志说它应该重新启动,那么我们取消设置什么标志?提出的一种策略是回滚系统时钟,但是,这可能会导致某些进程失败。