小编Dou*_*son的帖子

Hadoop / map-reduce:占用的插槽中所有地图所花费的总时间与所有地图任务所花费的总时间

背景:我正在分析各种集群配置上的AWS Hadoop作业的性能,并且某些Hadoop计数器令人困惑。

问题:“所有地图在占用插槽中所花费的总时间”与“所有地图任务所花费的总时间”之间有什么区别?(相同的减少问题)。为简便起见,我们将这些计数器称为mapO,mapT,redO和redT。这是我在三种不同的配置中看到的内容(每种配置具有不同数量的核心/从属节点):

1)对于AWS / EMR作业(Hadoop 2.4.0-amzn-3),mapO / mapT的比率始终为6.0,redO / redT的比率始终为12.0。

2)对于使用实例存储手动安装的Hadoop(Hadoop 2.4.0.2.1.5.0-695),mapO / mapT的比率始终为1.0,但redO / redT的比率有时为1.0,有时为2.0。

3)对于使用EBS存储手动安装的Hadoop,mapO / mapT的比率始终为1.0,redO / redT的比率始终为2.0。

我假设其他配置具有不同的比率,但是这些计数器/计时器实际测量什么?

我买了汤姆·怀特(Tom White)出色的“ Hadoop”书(第3版),但没有提到mapO或redO计数器,也没有提到“占用的插槽”。

我还运行了很多Google搜索,并在hadoop.apache.com上浏览了数十个页面。我还在MacBook上运行了hadoop,并搜索了这些计数器的代码,但找不到它(我确定它在那里,但??)。

正如在一个相关的(未回答的)问题中所指出的那样,令人惊讶且奇怪的是,即使这些基本计数器的基本描述也无法获得。

apache hadoop amazon-web-services

2
推荐指数
1
解决办法
1359
查看次数

标签 统计

amazon-web-services ×1

apache ×1

hadoop ×1