MYj*_*Yjx 3 apache-spark pyspark
我想写一个火花数据帧,以实木复合地板,但不是指定为partitionBy,但numPartitions每个分区或大小。在 PySpark 中是否有一种简单的方法可以做到这一点?
如果您只关心分区数,则该方法与任何其他输出格式完全相同 - 您可以DataFrame使用给定数量的分区重新分区,然后使用DataFrameWriter:
df.repartition(n).write.parquet(some_path)
Run Code Online (Sandbox Code Playgroud)