rav*_*vee 5 binaryfiles apache-spark pyspark
尝试使用 PySpark 处理大型二进制文件,但总是出现 OutofMemoryError。尝试了所有可能的方法,例如增加执行器/驱动程序内存、重新分区 rdd。单个大型二进制文件会在 Spark 中进行分区吗?如果没有,我们如何处理二进制文件。我当前使用的二进制文件超过2GB。
| 归档时间: |
|
| 查看次数: |
530 次 |
| 最近记录: |