如何存储 TB 级的随机访问的大文件？

Question

假设我有几千个大文件（每个 1-800mb），它们都是随机访问的，新上传的文件访问非常频繁，随着时间的推移，访问时间以平方反比的方式下降，但是有可能是旧文件使用的随机峰值。

总吞吐量在 2-4Gbit 范围内。

我正在寻找自托管解决方案，而不是亚马逊产品，因为它们太贵了。

我脑子里大概是这样的：

昂贵的“主”服务器，带有几个 15k rpm SAS 驱动器（或 SSD），它们将托管刚刚上传到站点的新文件。一旦下载速度下降（或文件达到一定年龄），它就会转移到更便宜的存档节点之一。

编辑： 文件将通过 HTTP 提供给各种用户。服务器正在运行 FC5。主要需要读访问，但写也很重要。

现在我有一个简单的 2 服务器设置，最大 1 gbit，并且我变得疯狂的 IO。该框采用 4K 块格式化。增加它说...... 1024K会产生巨大的影响吗？

Answer 1

如果您仅在本地提供此数据，则可以使用现成的组件轻松组装具有几 TB 存储空间的单个服务器。组合几个千兆位网卡可以为您提供网络吞吐量。

如果必须在更远的距离上提供内容，最好跨多个盒子复制数据。如果你负担得起，你可以完全复制数据，如果文件永远不会被覆盖，基于时间戳的原始复制脚本就可以工作。

否则，您可以查看并行文件系统实现；如果你想要一个免费的，你可以看看 Lustre（适用于 Linux）或 Hadoop（多平台）。