TORQUE,HTCondor和Apache Mesos之间的主要区别是什么?

Roc*_*nce 5 scheduler pbs torque condor

我正在寻找一个程序来执行分布式计算(不需要并行计算),它具有:

  • 调度程序
  • 队列管理(FIFO,或者更优先的东西)
  • 一份好的统计报告
  • 能够在异构集群(一组具有不同特性的机器,如CPU和内存)上运行
  • 并且非常重要:良好的响应性(在任务触发和实际执行开始之间最多几秒钟:我听说用HTCondor和TORQUE实现这可能很棘手?Apache Mesos怎么样?)

til*_*ill 1

有一个相当大的维基百科页面进行比较,但你很难发现很大的差异。我的猜测是,理论上大多数事情都可以在任一框架中完成。您列出的所有内容都取决于视角(例如,人们通常从 HTCondor 日志中编写自己的复杂统计数据)。关于响应能力:如果有足够的资源供工作人员接手工作,HTCondor 可以很好地安排交互式笔记本。几秒钟通常没有问题,但很难保证。这些是高吞吐量系统,但不是低延迟系统。如果您关心延迟,您应该预先分配工作线程并上下扩展它们(此处对顶部其他框架的支持比本机延迟更有帮助)。

我尽力从我的角度强调每个项目的主要焦点,这对于实际决策很重要:

目标听众

梅索斯:

HTCondor 和扭矩:

  • 公平共享批处理,特别是在科学集群中(高吞吐量计算)

生态系统

梅索斯:

  • Apache 开源项目与社区

HTCondor:

  • 由威斯康辛大学麦迪逊分校维护的开放源代码,具有经典的用户邮件列表

扭矩:

使用方便

(部分这是统计数据,但更多的是仪表板样式)

中值和扭矩:

  • 网页用户界面
  • 通常与其他可用框架集成(对于 TORQUE,请查找 PBS)

HTCondor:

  • 新的、正在开发的 REST 和 python 接口,但没有通用的 GUI
  • 在框架支持方面落后一点点(R batchtools,最近有了 dask 支持)