GlusterFS作为Hadoop的后端

Question

我见过redhat提出了一个可能的解决方案,GlusterFS作为hadoop的后端.在这种情况下,您可以使用namenode/datanode体系结构并将其替换为glusterfs,同时您仍然具有Hadoop Mapreduce api兼容性.

只是想知道性能与native-HDFS相比如何？真的是生产准备好了吗？它是否也支持所有的hadoop生态系统？例如Solr Cloud,Spark,Impala等

Answer 1

免责声明：我为存储供应商工作。 出色地。我对 GlusterFS 不太了解，但我可以谈谈Lustre，因为归根结底它是 POSIX。它是并行文件系统，但我最近研究的基准测试表明它确实优于 HDFS。但它绝对是一个生产就绪的替代方案，为您的数据提供单一名称空间（不再需要 HDFS 摄取）

如今 Hadoop 生态系统有何作用？ 我今天在生产中看到的是Spark、Hive、Hbase。Imapala 在我看来它需要 HDFS 的某些部分，这就是为什么它不能与 POSIX FS 一起使用并且它不是HCFS。我做了一个快速测试，我能够创建数据库和所有内容，但我无法获取任何行。

如果您需要进一步的帮助，请告诉我。