在Spark中写入指定的Parquet文件名

Hen*_*nry 2 apache-spark sparkr

我正在使用SparkR,并且想write.df用作特定的文件夹:

write.df(my.sdf,path='/path/to/folder/',source='parquet')

理想情况下,我想指定一个完整的路径名,即 /path/to/folder/this_parquet_file.parquet.gz

这有可能吗?

Mar*_*ier 5

简而言之:不。

您可以coalesce(1)用来减少实木复合地板文件夹中的文件数量,仅此而已。写入执行者的输出将始终导致多个文件,因为这是按比例设计的。