如何指定saveAsTable将文件保存到的路径？

Question

如何指定saveAsTable将文件保存到的路径？

Chr*_*rts 11 apache-spark apache-spark-sql pyspark

我想使用DataFrameWriter在Spark1.4中的pyspark中将DataFrame保存到S3

df = sqlContext.read.format("json").load("s3a://somefile")
df_writer = pyspark.sql.DataFrameWriter(df)
df_writer.partitionBy('col1')\
         .saveAsTable('test_table', format='parquet', mode='overwrite')

Run Code Online (Sandbox Code Playgroud)

镶木地板文件转到"/ tmp/hive/warehouse/....",这是我的驱动程序上的本地tmp目录.

我确实在hive-site.xml中将hive.metastore.warehouse.dir设置为"s3a:// ...."位置,但是火花似乎与我的hive仓库设置无关.

Answer 1

Chr*_*rts 27

使用path.

df_writer.partitionBy('col1')\
         .saveAsTable('test_table', format='parquet', mode='overwrite',
                      path='s3a://bucket/foo')

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，2 月前
查看次数：	23562 次
最近记录：	7 年，8 月前