相关疑难解决方法(0)

限制数据帧分区的最大大小

当我将数据帧写入csv时,会为每个分区创建一个.csv文件.假设我想将每个文件的最大大小限制为1 MB.我可以多次写入并且每次都增加参数以重新分区.有没有办法可以提前计算用于重新分区的参数,以确保每个文件的最大大小小于某个指定的大小.

我想可能存在病理情况,其中所有数据最终都在一个分区上.因此,做出较弱的假设,我们只想确保平均文件大小小于某个指定的数量,比如1 MB.

scala apache-spark apache-spark-sql

12
推荐指数
1
解决办法
1898
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

scala ×1