如何在Spark Shell中在运行时添加配置单元属性

Question

如何在Spark Shell中在运行时添加配置单元属性

如何hive.metastore.warehouse.dir在运行时设置像以下这样的配置单元属性？或至少像上面这样设置属性的动态方式，而不是将其放入文件中 spark_home/conf/hive-site.xml

Answer 1

我遇到了同样的问题，对我来说，它通过从 Spark (2.4.0) 设置 Hive 属性来解决。请在下面找到通过spark-shell、spark-submit 和SparkConf 的所有选项。

选项 1（spark-shell）

spark-shell --conf spark.hadoop.hive.metastore.warehouse.dir=some_path\metastore_db_2

Run Code Online (Sandbox Code Playgroud)

最初我尝试使用 Spark-shellhive.metastore.warehouse.dir设置为some_path\metastore_db_2。然后我收到下一个警告：

警告：忽略非 Spark 配置属性：hive.metastore.warehouse.dir=C:\winutils\hadoop-2.7.1\bin\metastore_db_2

尽管当我使用以下命令创建 Hive 表时：

bigDf.write.mode("overwrite").saveAsTable("big_table")

Run Code Online (Sandbox Code Playgroud)

Hive 元数据正确存储在metastore_db_2 文件夹下。

当我使用时，spark.hadoop.hive.metastore.warehouse.dir警告消失，结果仍然保存在metastore_db_2目录中。

选项 2（spark 提交）

为了在使用hive.metastore.warehouse.dirSpark-Submit 提交作业时使用，我遵循了以下步骤。

首先，我编写了一些代码来使用 Hive 保存一些随机数据：

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

val sparkConf = new SparkConf().setAppName("metastore_test").setMaster("local")
val spark = SparkSession.builder().config(sparkConf).getOrCreate()

import spark.implicits._
var dfA = spark.createDataset(Seq(
      (1, "val1", "p1"),
      (2, "val1", "p2"),
      (3, "val2", "p3"),
      (3, "val3", "p4"))).toDF("id", "value", "p")

dfA.write.mode("overwrite").saveAsTable("metastore_test")

spark.sql("select * from metastore_test").show(false)

Run Code Online (Sandbox Code Playgroud)

接下来我提交了作业：

spark-submit --class org.tests.Main \
        --conf spark.hadoop.hive.metastore.warehouse.dir=C:\winutils\hadoop-2.7.1\bin\metastore_db_2 
        spark-scala-test_2.11-0.1.jar

Run Code Online (Sandbox Code Playgroud)

Metastore_test 表已在该C:\winutils\hadoop-2.7.1\bin\metastore_db_2文件夹下正确创建。

选项 3（SparkConf）

通过Spark代码中的SparkSession。

val sparkConf = new SparkConf()
      .setAppName("metastore_test")
      .set("spark.hadoop.hive.metastore.warehouse.dir", "C:\\winutils\\hadoop-2.7.1\\bin\\metastore_db_2")
      .setMaster("local")

Run Code Online (Sandbox Code Playgroud)

这次尝试也成功了。

仍然存在的问题是为什么我必须扩展财产spark.hadoop才能按预期工作？

回答你的最后一个问题：https://github.com/apache/spark/blob/v2.3.1/core/src/main/scala/org/apache/spark/deploy/SparkHadoopUtil.scala#L501 (2认同)

归档时间：	10 年，3 月前
查看次数：	3517 次
最近记录：	6 年，9 月前