我试图了解如何在YARN群集/客户端上运行spark.我脑子里有以下问题.
是否有必要在纱线群中的所有节点上安装火花?我认为它应该是因为集群中的工作节点执行任务并且应该能够解码驱动程序发送到集群的spark应用程序中的代码(spark API)?
它在文档中说"确保HADOOP_CONF_DIR或YARN_CONF_DIR指向包含Hadoop集群的(客户端)配置文件的目录".为什么客户端节点在将作业发送到集群时必须安装Hadoop?
HADOOP_CONF_DIR
YARN_CONF_DIR
hadoop hdfs hadoop-yarn apache-spark
apache-spark ×1
hadoop ×1
hadoop-yarn ×1
hdfs ×1