与Cloudera和Hortonworks相比,Hadoop发行版MapR有哪些缺点?

Kai*_*ner 6 hadoop hdfs cloudera mapr

Cloudera和Hortonworks使用HDFS,这是Apache Hadoop的基本概念之一.MapR使用自己的概念/实现.您可以直接使用本机文件系统而不是HDFS.您可以在MapR网站上使用此方法找到许多优势.

我想知道这种方法的缺点是什么?

Dav*_*man 5

我会稍微定义MapR.它不使用HDFS,而是使用NFS接口提供自己的分布式文件系统.其中,HDFS也基于本地FS.
主要的不同之处在于HDFS不是Posix和其他设计选择.
1. MapR是HDFS不可变的.它可以被视为有利,特别是如果你需要它.
2. MapR时无法安装HDFS.您可以使用任何使用Linux FS的现有工具.

与posix无关:MapR具有较小的块大小而不是单点故障(NameNode).MapR具有多站点复制.

让我们看看黑暗的一面:a)拥有可变数据(而不是不可变的HDFS)会使系统更加复杂.
b)不知道(至少对我来说)在大型集群上工作.(我听说过几百个节点).
c)从架构点(具有小块)我不确定如何实现良好的数据局部性.

  • 关于大卫的黑暗评论,(a)可变性使用户的事情变得更加简单,(b)它适用于大型集群......参见最近的世界排序记录,(c)小块不是当地的问题; MapR分离了磁盘单元(小块),集群条带化单元(如Hadoop块100的MB)和缩放常量(30GB而不是Hadoops默认64MB)的概念. (3认同)