小编rav*_*vee的帖子

使用 pyspark 对大型二进制文件进行分区

尝试使用 PySpark 处理大型二进制文件,但总是出现 OutofMemoryError。尝试了所有可能的方法,例如增加执行器/驱动程序内存、重新分区 rdd。单个大型二进制文件会在 Spark 中进行分区吗?如果没有,我们如何处理二进制文件。我当前使用的二进制文件超过2GB。

binaryfiles apache-spark pyspark

5
推荐指数
0
解决办法
530
查看次数

标签 统计

apache-spark ×1

binaryfiles ×1

pyspark ×1