如果已经安装了Hadoop,是否应该下载Apache Spark WITH Hadoop或WITHOUT Hadoop?

JBe*_*Bel 4 hadoop apache-spark hadoop3

我已经Hadoop 3.0.0安装好了。我现在应该从该页面安装Apache Spark 的不带版本的Apache Spark 吗?

我正在按照本指南开始使用Apache Spark。
它说

从以下链接下载最新版本的Apache Spark(根据您的Hadoop版本预先构建):...

但是我很困惑。如果我已经在机器上运行了Hadoop实例,然后下载,安装并运行Apache-Spark-WITH-Hadoop,它是否会启动另一个Hadoop实例?

cri*_*007 5

首先,据我所知,Spark尚不支持Hadoop 3。您会注意到,“您的Hadoop版本”没有可供下载的可用选项。

不过,无论下载哪个版本,都可以在spark-env.sh中尝试设置HADOOP_CONF_DIRHADOOP_HOME

如果已经拥有Hadoop,则应始终下载该版本。

它不会启动另一个Hadoop实例吗?

否。您仍然需要显式配置并启动该版本的Hadoop。

我相信该Spark选项已配置为使用随附的Hadoop


Moz*_*ath 5

这是@cricket_007 回答的补充。

如果您安装了 Hadoop,请不要下载带有 Hadoop 的 spark,但是,由于任何版本的 spark 仍然不支持您的 Hadoop 版本,因此您需要下载带有 Hadoop 的版本。尽管如此,您需要在您的机器上配置捆绑的 Hadoop 版本才能运行 Spark。这意味着您在 Hadoop 3 上的所有数据都将丢失。因此,如果您需要这些数据,请在开始降级/重新配置之前备份数据。由于某些环境变量,我认为您无法在同一系统上托管 2 个 Hadoop 实例。