如何在工作站上安装 Ubuntu 以配置快速系统以进行科学计算

Xia*_* Qi 5 performance partitioning ssd lvm btrfs

我负责一个强大的工作站来支持我们研究中心的科学计算需求。我们决定在机器上运行 Ubuntu 16.04 LTS。但是,我已经很多年没有做过类似的任务了。我上次管理集群/工作站是在过去使用 CentOS。我写信主要是为了两件事征求你的意见:

  1. 我应该如何配置有限的存储空间以获得最佳性能?该机具有性能不匹配的512GB SSD + 2TB HDD。未来可能会扩展到更多的PCIe-SSD和HDD,我们将有10-20个用户使用计算机。我应该对所有带有文件系统的分区使用LVMbtrfs进行快速快照吗?我认为 LVMbtrfs有利于未来的磁盘扩展,具有良好的性能,但可能会增加系统的复杂性,因为一个/home或根目录可以跨越普通 2.5 英寸 SSD 和更快的 PCIe m.2 SSD。

  2. 鉴于该机器目前有 28 个内核,1 个用于 CUDA(Matlab 等)和通用编程的 GPU,什么软件适合作业提交管理?我们将来可能会安装更多的 GPU。与其他计算机作为迷你集群联网可能会很好,但目前,我们还没有开放该计划。

下面是我对分区进行分组的初步计划,我听说Slurm非常适合作业队列管理。PBS/TORQUE 也适用于作业队列管理。不确定哪一种更适合我的情况。

512GB 固态硬盘 ( /dev/sda) :

/boot, ext2, 250MB

/swap, LVM-SWAP, 10GB (安装32GB内存, 稍后升级PCIe-NVM SSD卡)

/ (root), LVM-btrfs, 100GB (会用来安装很多共享软件)

/home, LVM-btrfs, ~400GB

2TB 硬盘(/dev/sdb)

/backup, LVM-btrfs, 1TB(我们还有远程备份磁盘服务器)

/data, LVM-btrfs, 1TB

在这个阶段,我不确定备份策略和文件结构。鉴于 SSD 的空间有限,我们缩小/home到仅在 SSD 上,以便为当前 ~10 位用户提供足够的程序空间,并为未来的 PCIe NVM SSD 卡扩展留出一些空间。因此,如果您对工作站配置的其他方面有一些想法,请随时发布。

先感谢您!

bmu*_*lan 0

假设您可能需要以某种方式进行虚拟化,请考虑 Proxmox,因为它是一个出色的虚拟机管理、配置和编排系统。Proxmox 还支持用户管理、网络管理和集群管理,并且有强大的开发者和用户社区。

BTRFS 或 ZFS 将为您提供快照/恢复功能。每个都有自己的优点/缺点。BTRFS 非常适合我的服务器。只是不要使用它的 Raid5 功能,因为它已经损坏了。我使用 BTRFS Raid10。

如此大量的用户和重要的工作的备份不应该在同一台物理机器上。

还为用户和网络保护制定安全策略。