Spark Local模式和Standalone模式之间的确切区别是什么?

Nik*_*dij 0 deployment bigdata apache-spark sparkcore

有人可以提及这些因素的区别吗

  • 节点/机器数
  • 记忆
  • 核心数
  • 设定
  • 部署方式
  • 每种模式的优点
  • 什么时候应该使用
  • 可能的例子

另外,如果我在单个笔记本电脑上本地运行spark,那么该模式是本地模式还是独立模式?

Dav*_*d H 8

独立和本地之间存在巨大差异。

本地 -表示它在本地PC上运行,即未分发。

独立 -意味着spark将处理资源管理。

独立运行,为此,我将为您提供一些背景知识,以便您可以更好地理解其含义。Spark是一个消耗资源的分布式应用程序,例如内存cpu等。假设您同时运行2个spark应用程序,这会在分配资源时导致错误。例如,可能发生第一个作业占用了所有内存,而第二个作业则因为没有内存而失败了。

要解决此问题,您需要使用一些资源管理器,以确保您的作业可以正常运行而不会出现资源问题。

独立,意味着spark将处理群集上资源的管理。还有其他资源管理工具,例如YarnMesos。总体而言,您有3个用于管理集群上资源的选项: MesosYarnStandalone

我还要提到,在真正的Hadoop集群上,spark不是集群上运行的唯一应用程序,这意味着它不是资源的唯一消费方。您还可以运行HBaseTEZIMPALA。Yarn将帮助您将资源分配给所有这些应用程序。