我可以将 pyspark 数据帧保存为哪些文件格式？

Question

我可以将 pyspark 数据帧保存为哪些文件格式？

mat*_*enu 5 hadoop hive hiveql apache-spark pyspark

我想将一个巨大的 pyspark 数据帧保存为 Hive 表。我怎样才能有效地做到这一点？我希望使用pyspark.sql.DataFrameWriter.saveAsTable中的saveAsTable(name, format=None, mode=None,partitionBy=None, **options)。

# Let's say I have my dataframe, my_df # Am I able to do the following? my_df.saveAsTable('my_table')
Run Code Online (Sandbox Code Playgroud)
我的问题是我可以使用哪些格式以及我可以在哪里找到这些信息？OrcSerDe 是一个选择吗？我仍在学习这一点。谢谢。

Answer 1

mat*_*enu 1

因此，我能够使用 pyspark.sql.DataFrameWriter 将 pyspark 数据帧写入压缩的 Hive表。为此，我必须执行以下操作：

my_df.write.orc('my_file_path')

Run Code Online (Sandbox Code Playgroud)

这就成功了。

https://spark.apache.org/docs/1.6.0/api/python/pyspark.sql.html#pyspark.sql.DataFrame.write

顺便说一句，我正在使用 pyspark 1.6.0

归档时间：	7 年，5 月前
查看次数：	9279 次
最近记录：	7 年，5 月前