将 spark DataFrame 保存为 Hive 表的问题

Question

将 spark DataFrame 保存为 Hive 表的问题

Vla*_*nov 7 python hive apache-spark pyspark

我有两个 spark 的数据框。其中之一使用 HiveContext 从 hive 表中收到：

spark_df1 = hc.sql("select * from testdb.titanic_pure_data_test")

Run Code Online (Sandbox Code Playgroud)

我从.csv文件中获得的第二个 spark 数据框：

lines = sc.textFile("hdfs://HDFS-1/home/testdb/1500000_Sales_Records.csv").map(lambda line: line.split(","))    

spark_df_test = lines.toDF(['Region','Country','Item_Type','Sales_Channel','Order_Priority','Order_Date','Order_ID','Ship_Date','Units_Sold','Unit_Price','Unit_Cost','Total_Revenue','Total_Cost','Total_Profit'])`

Run Code Online (Sandbox Code Playgroud)

我想将任何数据框保存为配置单元表

spark_df1.write.mode("overwrite").format("orc").saveAsTable("testdb.new_res5")

保存的第一个数据帧没有问题，但是当我尝试以spark_df_test相同的方式保存第二个数据帧 ( ) 时，出现此错误

文件“/home/jup-user/testdb/scripts/caching.py”，第 90 行，在 spark_df_test.write.mode("overwrite").format("orc").saveAsTable(" testdb. new_res5") 文件 "/data_disk /opt/cloudera/parcels/CDH-5.15.1-1.cdh5.15.1.p0.4/lib/spark/python/lib/pyspark.zip/pyspark/sql/readwriter.py”，第 435 行，在 saveAsTable 文件中“/data_disk/opt/cloudera/parcels/CDH-5.15.1-1.cdh5.15.1.p0.4/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py” ，第 1257 行，通话中 文件“/data_disk/opt/cloudera/parcels/CDH-5.15.1-1.cdh5.15.1.p0.4/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py”，第51行, 在 deco pyspark.sql.utils.AnalysisException: '临时表不允许指定数据库名称或其他限定符。如果表名中包含点（.），请用反引号（`）引用表名；;'

Answer 1

Avi*_*rya 8

问题是您试图用不同的数据框覆盖同一个 hive 表。这现在在 spark 中是做不到的。

原因是下面的代码。这可确保该表是否存在以引发异常。理想的方法是将数据框保存在新表中

spark_df_test.write.mode("overwrite").format("orc").saveAsTable("testdb.new_res6")

或者你可以使用'insertInto'

spark_df_test.write.mode("overwrite").saveAsTable("temp_table")

然后您可以覆盖目标表中的行

val tempTable = sqlContext.table("temp_table") 
tempTable
       .write
       .mode("overwrite").insertInto("testdb.new_res5")

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，4 月前
查看次数：	6052 次
最近记录：	7 年，4 月前