有太多的选择,很难知道从哪里开始。我的要求是这些:
此外,我寻找这些品质,尽管它们不是“要求”:
我想要一些关于哪种文件系统最适合给定要求的输入。我组织中的一些人倾向于 MogileFS,但我不相信该项目的稳定性和动力。根据我有限的研究,GlusterFS 和 Lustre 似乎得到了更好的支持......
想法?
实际上,我认为没有那么多现实的选择。按照优先顺序,我的选择是:
恕我直言,Hadoop 分布式文件系统 (HDFS) 不符合您的要求。HDFS 很棒,但它类似于 bigtable 的方法意味着它比上面的文件系统更难访问。当然,如果你真的在寻找大规模的可扩展性和长远的眼光,那么 HDFS 可能是正确的——雅虎、Facebook 和其他公司投资于 Hadoop 的增长。
一个评论,以上系统大部分都是将整个文件复制到2-3个节点来实现冗余。这比奇偶校验编码 / RAID 方案占用更多的空间,但它可以大规模管理,并且似乎是每个人都采用的解决方案。所以你不会得到你提到的 75% 的效率......
如果是我,我会使用 GlusterFS。当前版本非常可靠,我知道 HPC 和互联网领域的一些大型安装中的人们在他们的生产系统中依赖它。您基本上可以通过根据需要布置组件来根据您的需求进行定制。与 Lustre 不同,它没有专用的元数据服务器,因此可以最大限度地减少中心故障点,并且更容易扩展设置。
不幸的是,我认为没有一种简单的方法可以在不降低性能的情况下满足 75% 的标准。
它确实在商用硬件上运行,但在使用 Infiniband 互连时,性能确实非常出色。幸运的是,现在IB的价格确实很低。
您可能想看看Scalable Informatics的人员及其 Jackrabbit 产品作为解决方案。他们在硬件上支持 GlusterFS,而且他们的解决方案的价格肯定可以与从头开始组装的成本相媲美。
归档时间: |
|
查看次数: |
2685 次 |
最近记录: |