小编Tim*_* J.的帖子

背景

最近我的实验室投资了 GPU 计算基础设施。更具体地说：两个 TitanV 安装在标准服务器机器上。目前，该机器正在运行一个根本没有配置的 Windows Server。我实验室的每个人都可以登录并做任何他们想做的事情。时不时会发生机器对其他人完全无用的情况，因为有人不小心占用了所有可用内存。

由于机器学习在这里增长。我正在寻找一种更好的方式来利用我们的基础设施。

要求

到目前为止我尝试过的

我有一个小型测试设置（带有 GTX 1070 的消费类 PC）用于实验。我的互联网研究将我指向了 SLURM 和 Kubernetes。

首先，我喜欢集群管理系统的想法，因为它提供了未来扩展基础设施的选项。

SLURM 设置起来相当容易，但我无法设置诸如远程提交或时间片调度之类的东西。

与此同时，我也尝试使用 Kubernetes。对我来说，它提供了更多有趣的功能，尤其是容器化。但是，所有这些功能都使设置和理解变得更加复杂。我再次无法构建像远程提交这样的东西。

我的问题

有没有人遇到过同样的问题，可以报告他/她的解决方案吗？我有一种感觉，Kubernetes 为未来做好了更好的准备。

如果您需要更多信息，请告诉我。

谢谢蒂姆！

6
推荐指数

1
解决办法

875
查看次数

gpu ×1

小编Tim_ J.的帖子