在纱线群上设置火花时需要哪些守护进程?

KBR*_*KBR 1 hadoop cluster-computing hadoop-yarn apache-spark

我理解下面是spark集群所需的守护进程

  1. 工人(奴隶)
  2. 驱动程序(在应用程序被提交时启动)
  3. 执行程序(在应用程序被提交时启动)

我在Spark上设置了一些非常基本的问题

  1. 是否有任何主守护程序或工作人员守护程序单独启动spark?我理解纱线集群本身的资源管理器和节点管理器将充当火花作业的主人和工人.从这篇文章http://blog.cloudera.com/blog/2014/05/apache-spark-resource-management-and-yarn-app-models/,看起来好像没有单独的主/从守护进程的火花在纱线上.
  2. 如果对上述问题的回答是否定的.当我们尝试在现有纱线上设置火花时,我们是否需要在提交火花应用之前启动任何持久守护进程?
  3. spark-1.5.0-bin-hadoop2.4\sbin目录下的任何启停脚本在这种情况下都会有用吗?
  4. 一旦驱动程序完成执行,Spark WEB UI就不可用.我对么 ?

Sum*_*mit 5

以下是您的问题的答案: -

  1. 在纱线模式下,您不需要Master或Worker或Executors.您只需要将您的申请提交给Yarn,而Yarn将自行管理.请参阅如何将Yarn用作Cluster Manager的部署部分.
  2. 如果您的Yarn群集已启动并正在运行且已准备就绪,那么您不需要任何其他守护程序.
  3. 取决于你想做什么,但脚本喜欢SPARK_HOME/sbin/spark-config.shSPARK_HOME/sbin/start-history-server.sh可以使用.
  4. Spark Web UI仅在独立模式下可用.在纱线中,您可以在执行作业时使用驱动程序UI,或者在完成作业后需要打开历史记录服务器以分析作业.