我已将 HDFS 中的镶木地板表加载到 DataFrame 中:
val df = spark.read.parquet("hdfs://user/zeppelin/my_table")
我现在想要将此表公开给 Spark SQL,但这必须是一个永久表,因为我想从 JDBC 连接或其他 Spark 会话访问它。
快速的方法可能是调用df.write.saveAsTable方法,但在这种情况下,它将具体化 DataFrame 的内容并创建指向 Hive 元存储中的数据的指针,从而在 HDFS 中创建数据的另一个副本。
我不想拥有相同数据的两个副本,因此我希望创建一个外部表来指向现有数据。