Mac*_*akM 1 hadoop apache-spark
我正在尝试学习 Spark 框架。在其主页https://spark.apache.org/说它比 Hadoop 框架更好。但是他们说:Spark 在 Hadoop 上运行……我真的不明白为什么在 Hadoop 应该比 Hadoop 更好的情况下可以在 Hadoop 上运行。
有人可以向我解释这两者之间的层次结构吗?
Apache Hadoop (2.0) 提供两个主要组件,(1) HDFSHadoop 分布式文件系统,用于在集群上存储数据(即文件),以及 (2)YARN集群计算资源管理系统(即 CPU/RAM)。
Hadoop 2.0:
Hadoop (2.0) 还提供了一个名为“MapReduce (MR2 - MapReduce2)”的执行引擎,它可以使用 YARN 计算资源来执行基于 MapReduce 的程序。
在 Hadoop (2.0) 之前,YARN 不存在,MapReduce 执行资源管理和执行引擎的两个角色。Hadoop (2.0) 将计算资源管理与执行引擎分离,允许您在 Hadoop 集群上运行多种类型的应用程序。
一些 Hadoop 2.0 执行引擎示例:
用于运行 MapReduce2 (MR2) 的 YARN 资源
用于运行 Spark 的 YARN 资源
用于运行 Tez 的 YARN 资源
Spark 程序需要资源才能运行,它们通常来自 Spark 独立集群,或者通过使用来自 Hadoop 集群的 YARN 资源获取资源;还有其他运行 Spark 的方法,但在此无需讨论。
和 MapReduce 程序一样,Spark 程序也可以访问存储在 HDFS 或其他地方的数据。
| 归档时间: |
|
| 查看次数: |
631 次 |
| 最近记录: |