分布式文件系统:GridFS与GlusterFS对比Ceph与HekaFS基准

Alp*_*Alp 41 filesystems gridfs ceph glusterfs

我目前正在寻找一个好的分布式文件系统.

这应该:

  • 是开源的
  • 可水平扩展(复制和分片)
  • 没有单一的失败点
  • 占地面积相对较小

以下是我认为最有希望的四位候选人:

文件系统主要用于媒体文件(图像和音频).有非常小和中等大小的文件(1 KB - 10 MB).文件数量应该在几百万左右.

是否有关于性能,CPU负载,内存消耗可扩展性的基准测试?您使用这些或其他分布式文件系统的经历是什么?

小智 27

我不确定你的清单是否正确.这取决于文件系统的含义.

如果您的意思是一个可以在操作系统中安装并且可以被任何使用POSIX调用读取和写入文件的应用程序使用的文件系统,那么GridFS并不真正符合条件.这就是MongoDB如何存储BSON格式的对象.它是一个Object系统而不是File系统.

一个项目可以使GridFS可安装,但它有点奇怪,因为GridFS没有像分层目录这样的概念,尽管允许路径.另外,我不确定如何在gridfs-fuse上进行分布式写入.

GlusterFS和Ceph是可比较的,是可分发的,可复制的可安装文件系统.您可以在这里阅读两者之间的比较(以及后续的比较更新),但请记住,基准测试是由有点偏见的人完成的.您还可以观看有关该主题的辩论.

至于HekaFS,它是为云计算设置的GlusterFS,增加了加密和多租户以及管理UI.


Onl*_*job 14

在与Ceph合作11个月之后,我得出的结论是它完全糟透了所以我建议避免它.我尝试过XtreemFS,RozoFSQuantcastFS,但发现它们还不够好.

我全心全意地推荐LizardFS,它是现在专有的 MooseFS的一个分支.LizardFS具有数据完整性,监控和卓越的性能,几乎没有依赖性.


2019年更新:情况发生了变化,LizardFS不再被主动维护.
MooseFS比以往更强大,并且免于大多数LizardFS错误.MooseFS维护得很好,比LizardFS快.

RozoFS已经成熟,也许值得一试.
GfarmFS有它的利基,但今天我会选择MooseFS用于大多数应用程序.

  • 哇,我从未听说过这么多名字 (7认同)
  • 因为我测试了XtreemFS并发现它不能正常工作.存在数据损坏(#359),降级模式下的读取错误(#357 /#235),残缺的只读模式(#358)等问题; 构建系统是乱七八糟的加上XtreemFS依赖于旧的(自2007年以来未更新)非自由JAR(#309,#173),因此XtreemFS违反DFSG并且不能在Debian中分发.此外,我对开发者如何应对错误感到不满.最后,XtreemFS是用低级语言编写的,因低效的内存管理而臭名昭着,所以XtreemFS在性能比较中无法忍受GfarmFS和LizardFS ...... (4认同)