如何存储 TB 级的随机访问的大文件?

7 storage file-hosting

假设我有几千个大文件(每个 1-800mb),它们都是随机访问的,新上传的文件访问非常频繁,随着时间的推移,访问时间以平方反比的方式下降,但是有可能是旧文件使用的随机峰值。

总吞吐量在 2-4Gbit 范围内。

我正在寻找自托管解决方案,而不是亚马逊产品,因为它们太贵了。

我脑子里大概是这样的:

昂贵的“主”服务器,带有几个 15k rpm SAS 驱动器(或 SSD),它们将托管刚刚上传到站点的新文件。一旦下载速度下降(或文件达到一定年龄),它就会转移到更便宜的存档节点之一。

编辑: 文件将通过 HTTP 提供给各种用户。服务器正在运行 FC5。主要需要读访问,但写也很重要。

现在我有一个简单的 2 服务器设置,最大 1 gbit,并且我变得疯狂的 IO。该框采用 4K 块格式化。增加它说...... 1024K会产生巨大的影响吗?

b0f*_*0fh 1

如果您仅在本地提供此数据,则可以使用现成的组件轻松组装具有几 TB 存储空间的单个服务器。组合几个千兆位网卡可以为您提供网络吞吐量。

如果必须在更远的距离上提供内容,最好跨多个盒子复制数据。如果你负担得起,你可以完全复制数据,如果文件永远不会被覆盖,基于时间戳的原始复制脚本就可以工作。

否则,您可以查看并行文件系统实现;如果你想要一个免费的,你可以看看 Lustre(适用于 Linux)或 Hadoop(多平台)。