使用 PySpark 将数据帧写入镶木地板时如何指定分区号

MYj*_*Yjx 3 apache-spark pyspark

我想写一个火花数据帧,以实木复合地板,但不是指定为partitionBy,但numPartitions每个分区或大小。在 PySpark 中是否有一种简单的方法可以做到这一点?

zer*_*323 5

如果您只关心分区数,则该方法与任何其他输出格式完全相同 - 您可以DataFrame使用给定数量的分区重新分区,然后使用DataFrameWriter

df.repartition(n).write.parquet(some_path)
Run Code Online (Sandbox Code Playgroud)