mat*_*enu 5 hadoop hive hiveql apache-spark pyspark
我想将一个巨大的 pyspark 数据帧保存为 Hive 表。我怎样才能有效地做到这一点?我希望使用pyspark.sql.DataFrameWriter.saveAsTable中的saveAsTable(name, format=None, mode=None,partitionBy=None, **options)。
# Let's say I have my dataframe, my_df
# Am I able to do the following?
my_df.saveAsTable('my_table')
Run Code Online (Sandbox Code Playgroud)
我的问题是我可以使用哪些格式以及我可以在哪里找到这些信息?OrcSerDe 是一个选择吗?我仍在学习这一点。谢谢。
因此,我能够使用 pyspark.sql.DataFrameWriter 将 pyspark 数据帧写入压缩的 Hive表。为此,我必须执行以下操作:
my_df.write.orc('my_file_path')
Run Code Online (Sandbox Code Playgroud)
这就成功了。
https://spark.apache.org/docs/1.6.0/api/python/pyspark.sql.html#pyspark.sql.DataFrame.write
顺便说一句,我正在使用 pyspark 1.6.0
| 归档时间: |
|
| 查看次数: |
9279 次 |
| 最近记录: |