使用 pyspark 对大型二进制文件进行分区

rav*_*vee 5 binaryfiles apache-spark pyspark

尝试使用 PySpark 处理大型二进制文件，但总是出现 OutofMemoryError。尝试了所有可能的方法，例如增加执行器/驱动程序内存、重新分区 rdd。单个大型二进制文件会在 Spark 中进行分区吗？如果没有，我们如何处理二进制文件。我当前使用的二进制文件超过2GB。

归档时间：	7 年，1 月前
查看次数：	530 次
最近记录：	7 年，1 月前

在DataFrame中用空/空值替换空字符串 21

错误TaskSchedulerImpl:statusUpdate中的异常 10

scala代码在spark中抛出异常 8

创建RDD以收集迭代计算的结果 6

使用Spark Streaming读取Kafka记录时不可序列化的异常 5

按日期排序Spark数据框列的数组 5

将pyspark数据帧与另一个数据帧进行比较 5

Spark 3.0.0 创建 SparkSession 时出错：pyspark.sql.utils.IllegalArgumentException：<异常 str() 失败> 5

获取Spark 2.1.1中窗口的最后一个元素 3

如何在spark sql中合并map列？ 2

关闭/隐藏Android软键盘 3641

如何异步上传文件？ 2841

检查JavaScript对象中是否存在密钥？ 2750

在JavaScript中编码URL？ 2392

有没有办法对字符串进行子串？ 1995

无法打开与身份验证代理的连接 1473

用64位替换32位循环计数器会引入疯狂的性能偏差 1370

如何在git中按名称命名和检索存储？ 1276

如何将本地jar文件添加到Maven项目？ 1053

shell脚本中的YYYY-MM-DD格式日期 1045