小编ces*_*oza的帖子

我们应该如何在小型生物信息学集群中提供文件?

我们有一个由六个 ubuntu 服务器组成的小集群。我们对这些集群进行生物信息学分析。每次分析大约需要 24 小时才能完成,每个核心 i7 服务器一次可以处理 2 个,输入约 5GB 数据,输出约 10-25GB 数据。我们每周运行几十个。该软件是用 C/C++ 编写的自定义 perl 脚本和 3rd 方序列比对软件的大杂烩。

目前,文件由两个计算节点提供(是的,我们使用计算节点作为文件服务器)——每个节点有 5 个 1TB 单独安装的 sata 驱动器(无raid),并通过 glusterfs 2.0.1 汇集。它们每个都有 3 个绑定的英特尔以太网 pci 千兆以太网卡,连接到 d-link DGS-1224T 交换机(300 美元 24 端口消费级)。我们目前没有使用巨型帧(实际上不知道为什么)。然后通过 glusterfs 镜像两个文件服务计算节点。

其他四个节点中的每一个都通过 glusterfs 挂载文件。

这些文件都很大(4gb+),如果重要的话,它们被存储为裸文件(没有数据库/等)。

正如您可以想象的那样,这有点混乱,它在没有预先考虑的情况下有机地增长,我们现在想要改进它,因为我们的空间已经用完了。我们的分析是 I/O 密集型的,这是一个瓶颈——我们在两个文件服务器之间只能获得 140mB/sec,从客户端(只有单个 NIC)获得 50mb/sec。我们有一个灵活的预算,我大概可以得到 5000 美元左右。

我们应该如何花费我们的预算?

我们需要至少 10TB 的存储足够快来为所有节点提供服务。这种文件服务器的 CPU/内存必须有多快/多大?我们应该使用 NFS、ATA over Ethernet、iSCSI、Glusterfs 还是其他什么?我们应该购买两台或更多台服务器并创建某种存储集群,还是一台服务器足以容纳如此少量的节点?我们是否应该投资购买速度更快的 NIC(例如,带有多个连接器的 PCI-express 卡)?开关?我们应该使用raid,如果是,硬件还是软件?以及哪个突袭(5、6、10 等)?

任何想法表示赞赏。我们是生物学家,而不是 IT 专家。

storage

7
推荐指数
1
解决办法
1066
查看次数

标签 统计

storage ×1