小编ces*_*oza的帖子

我们应该如何在小型生物信息学集群中提供文件？

我们有一个由六个 ubuntu 服务器组成的小集群。我们对这些集群进行生物信息学分析。每次分析大约需要 24 小时才能完成，每个核心 i7 服务器一次可以处理 2 个，输入约 5GB 数据，输出约 10-25GB 数据。我们每周运行几十个。该软件是用 C/C++ 编写的自定义 perl 脚本和 3rd 方序列比对软件的大杂烩。

目前，文件由两个计算节点提供（是的，我们使用计算节点作为文件服务器）——每个节点有 5 个 1TB 单独安装的 sata 驱动器（无raid），并通过 glusterfs 2.0.1 汇集。它们每个都有 3 个绑定的英特尔以太网 pci 千兆以太网卡，连接到 d-link DGS-1224T 交换机（300 美元 24 端口消费级）。我们目前没有使用巨型帧（实际上不知道为什么）。然后通过 glusterfs 镜像两个文件服务计算节点。

其他四个节点中的每一个都通过 glusterfs 挂载文件。

这些文件都很大（4gb+），如果重要的话，它们被存储为裸文件（没有数据库/等）。

正如您可以想象的那样，这有点混乱，它在没有预先考虑的情况下有机地增长，我们现在想要改进它，因为我们的空间已经用完了。我们的分析是 I/O 密集型的，这是一个瓶颈——我们在两个文件服务器之间只能获得 140mB/sec，从客户端（只有单个 NIC）获得 50mb/sec。我们有一个灵活的预算，我大概可以得到 5000 美元左右。

我们应该如何花费我们的预算？

我们需要至少 10TB 的存储足够快来为所有节点提供服务。这种文件服务器的 CPU/内存必须有多快/多大？我们应该使用 NFS、ATA over Ethernet、iSCSI、Glusterfs 还是其他什么？我们应该购买两台或更多台服务器并创建某种存储集群，还是一台服务器足以容纳如此少量的节点？我们是否应该投资购买速度更快的 NIC（例如，带有多个连接器的 PCI-express 卡）？开关？我们应该使用raid，如果是，硬件还是软件？以及哪个突袭（5、6、10 等）？

任何想法表示赞赏。我们是生物学家，而不是 IT 专家。

storage

ces*_*oza

lucky-day

7
推荐指数

1
解决办法

1066
查看次数

标签统计

storage ×1

我们应该如何在小型生物信息学集群中提供文件？

标签 统计

小编ces_oza的帖子

标签统计