我可以将 pyspark 数据帧保存为哪些文件格式?

mat*_*enu 5 hadoop hive hiveql apache-spark pyspark

我想将一个巨大的 pyspark 数据帧保存为 Hive 表。我怎样才能有效地做到这一点?我希望使用pyspark.sql.DataFrameWriter.saveAsTable中的saveAsTable(name, format=None, mode=None,partitionBy=None, **options)

# Let's say I have my dataframe, my_df
# Am I able to do the following?
my_df.saveAsTable('my_table')
Run Code Online (Sandbox Code Playgroud)

我的问题是我可以使用哪些格式以及我可以在哪里找到这些信息?OrcSerDe 是一个选择吗?我仍在学习这一点。谢谢。

mat*_*enu 1

因此,我能够使用 pyspark.sql.DataFrameWriter 将 pyspark 数据帧写入压缩的 Hive。为此,我必须执行以下操作:

my_df.write.orc('my_file_path')
Run Code Online (Sandbox Code Playgroud)

这就成功了。

https://spark.apache.org/docs/1.6.0/api/python/pyspark.sql.html#pyspark.sql.DataFrame.write

顺便说一句,我正在使用 pyspark 1.6.0