陳冠穎*_*陳冠穎 7 hadoop-yarn apache-spark
我对一些类似的火花配置感到困惑......
我调查过的主要参考链接是https://spark.apache.org/docs/latest/configuration.html和https://spark.apache.org/docs/latest/running-on-yarn.html。
但我仍然对这些配置感到困惑......
谁能帮我找出主要区别?
非常感谢!!
1.spark.yarn.jars对比spark.jars
spark.yarn.jars 和 spark.jars 有什么区别?
哪个配置相同--jars?
spark.yarn.jars:包含要分发到 YARN 容器的 Spark 代码的库列表。默认情况下,YARN 上的 Spark 将使用本地安装的 Spark jar,但 Spark jar 也可以位于 HDFS 上的全局可读位置。这允许 YARN 将其缓存在节点上,以便每次应用程序运行时都不需要分发。例如,要指向 HDFS 上的 jar,请将此配置设置为 hdfs:///some/path。允许使用 Glob。
spark.jars:要包含在驱动程序和执行程序类路径中的以逗号分隔的 jar 列表。允许使用 Glob。
2.spark.yarn.dist.archives对比spark.yarn.archive
spark.yarn.dist.archives 与 spark.yarn.archive 有什么区别?
哪个配置相同--archives?
spark.yarn.dist.archives:要提取到每个执行程序工作目录中的以逗号分隔的档案列表。
spark.yarn.archive:包含分发到 YARN 缓存所需的 Spark jar 的存档。如果设置,此配置将替换 spark.yarn.jars 并且存档用于所有应用程序的容器。存档应在其根目录中包含 jar 文件。与前一个选项一样,存档也可以托管在 HDFS 上以加快文件分发。
3.spark.yarn.dist.files对比spark.files
spark.yarn.dist.files 与 spark.files 有什么区别?
哪个配置相同--files?
spark.yarn.dist.files:以逗号分隔的文件列表,放在每个执行程序的工作目录中。
spark.files:要放置在每个执行程序工作目录中的以逗号分隔的文件列表。允许使用 Glob。
| 归档时间: |
|
| 查看次数: |
226 次 |
| 最近记录: |