类似火花配置的区别

陳冠穎*_*陳冠穎 7 hadoop-yarn apache-spark

我对一些类似的火花配置感到困惑......

我调查过的主要参考链接是https://spark.apache.org/docs/latest/configuration.htmlhttps://spark.apache.org/docs/latest/running-on-yarn.html

但我仍然对这些配置感到困惑......

谁能帮我找出主要区别?

非常感谢!!

1.spark.yarn.jars对比spark.jars

spark.yarn.jars 和 spark.jars 有什么区别?

哪个配置相同--jars

  • spark.yarn.jars:包含要分发到 YARN 容器的 Spark 代码的库列表。默认情况下,YARN 上的 Spark 将使用本地安装的 Spark jar,但 Spark jar 也可以位于 HDFS 上的全局可读位置。这允许 YARN 将其缓存在节点上,以便每次应用程序运行时都不需要分发。例如,要指向 HDFS 上的 jar,请将此配置设置为 hdfs:///some/path。允许使用 Glob。

  • spark.jars:要包含在驱动程序和执行程序类路径中的以逗号分隔的 jar 列表。允许使用 Glob。

2.spark.yarn.dist.archives对比spark.yarn.archive

spark.yarn.dist.archives 与 spark.yarn.archive 有什么区别?

哪个配置相同--archives

  • spark.yarn.dist.archives:要提取到每个执行程序工作目录中的以逗号分隔的档案列表。

  • spark.yarn.archive:包含分发到 YARN 缓存所需的 Spark jar 的存档。如果设置,此配置将替换 spark.yarn.jars 并且存档用于所有应用程序的容器。存档应在其根目录中包含 jar 文件。与前一个选项一样,存档也可以托管在 HDFS 上以加快文件分发。

3.spark.yarn.dist.files对比spark.files

spark.yarn.dist.files 与 spark.files 有什么区别?

哪个配置相同--files

  • spark.yarn.dist.files:以逗号分隔的文件列表,放在每个执行程序的工作目录中。

  • spark.files:要放置在每个执行程序工作目录中的以逗号分隔的文件列表。允许使用 Glob。