基于实时应用的YARN和SPARK处理引擎有什么区别?

cha*_*var 2 hadoop bigdata hadoop-yarn apache-spark

我了解YARN和SPARK.但我想知道何时需要使用YARN和SPARK处理引擎.有什么不同的案例研究,我可以确定纱线和火花之间的区别.

小智 16

你不能直接比较Yarn和Spark.Yarn是一个分布式容器管理器,例如Mesos,而Spark是一个数据处理工具.Spark可以在Yarn上运行,就像Hadoop Map Reduce可以在Yarn上运行一样.恰巧Hadoop Map Reduce是一个随Yarn一起提供的功能,当Spark不是时.

如果你的意思是比较Map Reduce和Spark,我建议你阅读另一个答案.


Ven*_*hik 5

Apache Spark可以在YARN,MESOS或StandAlone模式下运行。

Spark在StandAlone模式下-意味着所有资源管理和作业调度都应由Spark内置完成。

YARN中的Spark-YARN是MRV2中引入的资源管理器,它不仅支持本机hadoop,还支持Spark,Kafka,Elastic Search和其他自定义应用程序。

Spark在Mesos -星火也支持Mesos,这是一个多类型的资源管理器。

Spark在YARN上的优势

  • YARN允许您在YARN上运行的所有框架之间动态共享和集中配置相同的群集资源池。
  • YARN调度程序可用于Spark作业,只有使用YARN,Spark才能针对Kerberized Hadoop集群运行并在其进程之间使用安全身份验证。

链接以获取有关YARN,Spark的更多文档。

我们可以得出这样的结论,如果您想构建一个独立于所有事物的小型且简单的集群。如果要使用现有的hadoop集群,请使用YARN / Mesos。