Ale*_*ord 9 hive apache-spark apache-spark-sql pyspark
我想使用PySpark将Spark(v 1.3.0)数据框中的数据保存到Hive表中.
该文件规定:
"spark.sql.hive.convertMetastoreParquet:当设置为false时,Spark SQL将使用Hive SerDe作为镶木桌而不是内置支持."
看看Spark教程,似乎可以设置这个属性:
from pyspark.sql import HiveContext
sqlContext = HiveContext(sc)
sqlContext.sql("SET spark.sql.hive.convertMetastoreParquet=false")
# code to create dataframe
my_dataframe.saveAsTable("my_dataframe")
Run Code Online (Sandbox Code Playgroud)
但是,当我尝试查询Hive中保存的表时,它返回:
hive> select * from my_dataframe;
OK
Failed with exception java.io.IOException:java.io.IOException:
hdfs://hadoop01.woolford.io:8020/user/hive/warehouse/my_dataframe/part-r-00001.parquet
not a SequenceFile
Run Code Online (Sandbox Code Playgroud)
如何保存表格,使其在Hive中立即可读?
| 归档时间: |
|
| 查看次数: |
16378 次 |
| 最近记录: |