小编cal*_*vin的帖子

非hdfs文件系统上的hadoop/yarn和任务并行化

我已经实例化了一个Hadoop 2.4.1集群,并且我发现运行MapReduce应用程序将根据输入数据所处的文件系统类型进行不同的并行化.

使用HDFS,MapReduce作业将生成足够的容器,以最大限度地利用所有可用内存.例如,一个具有172GB内存的3节点集群,每个映射任务分配2GB,将创建大约86个应用程序容器.

在不是HDFS的文件系统上(如NFS或我的用例,并行文件系统),MapReduce作业将只分配可用任务的子集(例如,使用相同的3节点集群,大约25-40个容器是创建).由于我使用的是并行文件系统,所以我并不关心如果使用NFS会遇到的瓶颈问题.

是否有YARN(yarn-site.xml)或MapReduce(mapred-site.xml)配置,这将使我能够有效地最大限度地利用资源?

hadoop hpc hdfs hadoop2

7
推荐指数
1
解决办法
387
查看次数

标签 统计

hadoop ×1

hadoop2 ×1

hdfs ×1

hpc ×1