GlusterFS或Ceph作为Hadoop的后端

She*_*jie 6 hadoop ceph glusterfs

有没有人试图使用GlusterFS或Ceph作为Hadoop的后端?我不是在谈论只是使用插件来缝制东西.性能是否优于HDFS本身?是否适合生产使用.

另外,合并对象存储,hadoop hdfs存储作为单个存储是一个非常好的主意吗?或者最好让它们分开.

小智 7

我之前使用过GlusterFS,它有一些很好的功能,但最后我选择在Hadoop中使用HDFS用于分布式文件系统.

关于GlusterFS的好处是它不需要主客户端节点.集群中的每个节点都是相同的,因此GlusterFS中没有单点故障.我在GlusterFS中发现一件有趣的事情是,当你想存储一个文件时,它有glusterfs-client模块,http://www.jamescoyle.net/how-to/439-mount-a-glusterfs-volume对于glusterfs,你不需要与GlusterFS apis接口,你只需要将文件复制到glusterfs-client中的已安装卷中,并使工作变得如此简单.

但我发现GlusterFS很难集成到Hadoop生态系统,如Spark,Mapreduce等,其中HDFS受Hadoop生态系统中所有大多数组件的支持.我认为GlusterFS很适合构建一个独立于Hadoop的文件存储等集群系统.


Dmi*_*lin 7

我曾尝试将 Ceph 作为 Hadoop 2.7 中的“插入式”HDFS 替代品,在解决了许多集成问题后发现它比具有 terasort 基准中默认复制因子的 HDFS 慢两三倍。我不知道这是什么原因。其他人尝试了不同的方法,结果相似:

http://www.snia.org/sites/default/files/SDC15_presentations/cloud_files/YuanZhou_big_data_analytics_on_object_store_r3.pdf

结合对象和 hdfs 存储是个好主意吗?我认为这个问题是不正确的。HDFS(通过 Ozone 和 FUSE)和 Ceph 都提供了将它们用作对象存储和常规 POSIX 文件系统的能力,Ceph 也具有提供块存储的优势,而 HDFS 目前正在讨论:https : //issues.apache.org /jira/browse/HDFS-11118 如果是“我可以同时将我的存储公开为 POSIX FS、对象、块存储吗?”的问题?那么答案将是,如果您的设计满足您对可扩展性和高可用性的要求,它实际上可能是一个好主意。