Spark 与 Hadoop 有何不同？

Question

我正在尝试学习 Spark 框架。在其主页https://spark.apache.org/说它比 Hadoop 框架更好。但是他们说：Spark 在 Hadoop 上运行……我真的不明白为什么在 Hadoop 应该比 Hadoop 更好的情况下可以在 Hadoop 上运行。

有人可以向我解释这两者之间的层次结构吗？

Answer 1

Apache Hadoop (2.0) 提供两个主要组件，(1) HDFSHadoop 分布式文件系统，用于在集群上存储数据（即文件），以及 (2)YARN集群计算资源管理系统（即 CPU/RAM）。

Hadoop 2.0：

Hadoop (2.0) 还提供了一个名为“MapReduce (MR2 - MapReduce2)”的执行引擎，它可以使用 YARN 计算资源来执行基于 MapReduce 的程序。

在 Hadoop (2.0) 之前，YARN 不存在，MapReduce 执行资源管理和执行引擎的两个角色。Hadoop (2.0) 将计算资源管理与执行引擎分离，允许您在 Hadoop 集群上运行多种类型的应用程序。

一些 Hadoop 2.0 执行引擎示例：

Spark 程序需要资源才能运行，它们通常来自 Spark 独立集群，或者通过使用来自 Hadoop 集群的 YARN 资源获取资源；还有其他运行 Spark 的方法，但在此无需讨论。

和 MapReduce 程序一样，Spark 程序也可以访问存储在 HDFS 或其他地方的数据。