控制和监控YARN中同时映射/减少任务的数量

Lit*_*les 5 hadoop mapreduce hadoop-yarn

我在少数强大的机器上部署了Hadoop 2.2集群.我有一个约束使用YARN作为框架,我不是很熟悉.

  1. 如何控制实际地图的数量并减少并行运行的任务?每台机器都有许多CPU核心(12-32)和足够的RAM.我想最大限度地利用它们.
  2. 如何监控我的设置实际上是否能更好地利用机器?在哪里可以查看给定作业中使用了多少核心(线程,进程)?

在此先感谢帮助我融化这些机器:)

Jas*_*per 4

1.
在 MR1 中,mapred.tasktracker.map.tasks.maximum 和 mapred.tasktracker.reduce.tasks.maximum 属性规定了每个 TaskTracker 拥有的映射和​​化简槽数。

这些属性在 YARN 中不再存在。相反,YARN 使用yarn.nodemanager.resource.memory-mb 和yarn.nodemanager.resource.cpu-vcores,它们控制每个节点上的内存和CPU 量,两者均可用于映射并减少

本质上:
YARN 没有 TaskTracker,只有通用 NodeManager。因此,不再有 Map 槽和Reduce 槽的分离。一切都取决于使用/需求的内存量

2.

使用 Web UI,您可以获得大量监控/管理类型的信息:

NameNode - http://:50070/
资源管理器 - http://:8088/

此外 Apache Ambari 就是为此目的: http: //ambari.apache.org/

Hue 用于以多种方式与 Hadoop/YARN 集群交互: http://gethue.com/