标签: condor

增长的 cron:下一个调度程序是什么?

从我记事起,我们就一直在使用 cron 来处理我们所有的作业调度需求。从存储克隆/快照到数据库报告、日常系统报告再到监控检查,所有内容都通过 cron 安排在数百台服务器上。

缺点非常明显:难以管理作业,没有简单的方法来创建依赖项(尤其是跨不同服务器),当然,不可避免地有人“暂时”跳过作业但后来忘记删除注释。

我们尝试了一个商业产品,但最终它被认为是从 cron 升级的太贵了。

我看到了其他选项,例如 SLURM、Oracle Grid Engine、Torque/Maui、Quartz、DIET、Condor,它们似乎面向更大、更同质的集群环境,其作业可以在任意数量的类似节点上运行:网格计算之类的。我们的环境相当混合(各种 Linux、AIX 和 FreeBSD),我们需要在不同类型的系统之间创建依赖关系(例如,Linux 机器上的作业可能需要确定 AIX 机器上的作业是否应该运行。)

有没有人有从 cron 迁移到更集中管理的产品的经验?有什么选择软件的技巧,还是开源或商业化更好?

cron job-scheduler torque condor

30
推荐指数
2
解决办法
6913
查看次数

标签 统计

condor ×1

cron ×1

job-scheduler ×1

torque ×1