小编Gab*_*eda的帖子

我已将 HDFS 中的镶木地板表加载到 DataFrame 中：

val df = spark.read.parquet("hdfs://user/zeppelin/my_table")

我现在想要将此表公开给 Spark SQL，但这必须是一个永久表，因为我想从 JDBC 连接或其他 Spark 会话访问它。

快速的方法可能是调用df.write.saveAsTable方法，但在这种情况下，它将具体化 DataFrame 的内容并创建指向 Hive 元存储中的数据的指针，从而在 HDFS 中创建数据的另一个副本。

我不想拥有相同数据的两个副本，因此我希望创建一个外部表来指向现有数据。

5
推荐指数

1
解决办法

2万
查看次数

小编Gab_eda的帖子