小编Gab*_*eda的帖子

如何从 HDFS 中的数据创建 EXTERNAL Spark 表

我已将 HDFS 中的镶木地板表加载到 DataFrame 中:

val df = spark.read.parquet("hdfs://user/zeppelin/my_table")

我现在想要将此表公开给 Spark SQL,但这必须是一个永久表,因为我想从 JDBC 连接或其他 Spark 会话访问它。

快速的方法可能是调用df.write.saveAsTable方法,但在这种情况下,它将具体化 DataFrame 的内容并创建指向 Hive 元存储中的数据的指针,从而在 HDFS 中创建数据的另一个副本。

我不想拥有相同数据的两个副本,因此我希望创建一个外部表来指向现有数据。

hive apache-spark

5
推荐指数
1
解决办法
2万
查看次数

标签 统计

apache-spark ×1

hive ×1