如何在数据块中设置环境变量?

inf*_*nge 3 environment-variables apache-spark databricks

简单的问题,但我找不到有关如何在 Databricks 中设置环境变量的简单指南。此外,在驱动程序和执行程序上设置环境变量是否重要(您是否会通过 spark.conf 执行此操作)?谢谢

CHE*_*SFT 7

创建前:

您可以在创建集群时设置环境变量。

单击高级选项=> 输入环境变量

在此处输入图片说明

创建后:

选择您的集群=> 单击Edit => Advance Options => Edit or Enter new Environment Variables => Confirm and Restart

在此处输入图片说明

或者

您可以通过将我的环境变量声明附加到文件 /databricks/spark/conf/spark-env.sh 来获得所需的结果。您可以按如下方式更改 init 文件:

%scala
dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] {
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |}
  |EOF
  """.stripMargin, true)
Run Code Online (Sandbox Code Playgroud)

有关更多详细信息,请参阅“ Databricks – Spark 配置”。

希望这可以帮助。

  • 顺便说一句:这些变量可以通过 `os.getenv("myenvname")` 访问。在这里发表评论是因为此信息非常难以找到。 (17认同)