Yarn为现有地图带来的额外好处减少了多少?

Abh*_*ain 17 hadoop mapreduce hadoop-yarn

纱线的基础设施层与原始地图缩减架构的区别在于以下方式:

在YARN中,作业跟踪器被分为两个不同的守护进程,称为Resource ManagerNode Manager(特定于节点).除了包括仅处理调度作业的调度程序而不担心任何监视或状态更新之外,资源管理器仅管理对不同作业的资源分配.内存,CPU时间,网络带宽等不同资源被放入一个称为的单元Resource Container.AppMasters在不同节点上有不同的运行,它们与许多这些资源容器通信,因此使用监视/状态详细信息更新节点管理器.

我想知道使用这种方法如何从map-reduce角度提高性能?此外,如果纱线背后的动机及其对Map-reduce的现有实施的好处有任何明确的内容,请指出我的相同内容.

Pra*_*ati 20

这里有一些文章(1,2,3)约纱.这些谈论了使用YARN的好处.

YARN比MR更通用,除了MR之外,应该可以运行像BSP这样的其他计算模型.在YARN之前,它需要一个单独的集群用于MR,BSP和其他.现在,他们可以在一个集群中共存,从而提高集群的使用率.以下是移植到YARN的一些应用程序.

从传统MR中的MapReduce角度来看,Map和Reduce任务有单独的插槽,但在YARN中,它们不是容器的固定用途.同一个容器可用于Map任务,Reduce任务,Hama BSP Task或其他东西.这导致更好的利用率.

此外,它可以在同一个集群中运行不同版本的Hadoop,这是传统MR无法实现的,从维护点来看很容易.

以下是YARN的一些额外链接.另外,Hadoop:The Definitive Guide,3rd Edition有一整节专门针对YARN.

仅供参考,它一直是位有争议的发展,而不是使用其中一些已经在做类似的事情,并一直在与理顺漏洞成功运行了好半天框架纱.


Dav*_*man 7

我认为Yarn不会加速现有的MR框架.展望架构,我们可以看到系统现在更加模块化 - 但模块化通常与更高的性能相矛盾.
可以说YARN与MapReduce无关.MapReduce刚刚成为YARN应用程序之一.你可以看到它从一些嵌入式程序转移到嵌入式操作系统中的程序
同时Yarn为不同的框架实现不同的 MR实现打开了大门.例如,如果我们假设我们的数据集小于集群内存,那么我们可以获得更好的性能.我认为http://www.spark-project.org/就是这样一个例子
总结一下:Yarn不会改进现有的MR,但会使其他MR实现在各个方面都更好.