为什么在pyspark中"n个任务的序列化结果(XXXX MB)"可能大于"spark.driver.memory"？

sim*_*ple 8 buffer jvm cluster-computing apache-spark pyspark

我使用这些设置(以及其他)启动了一个spark作业:

spark.driver.maxResultSize  11GB
spark.driver.memory         12GB

Run Code Online (Sandbox Code Playgroud)

我正在调试我的pyspark工作,它一直给我错误:

serialized results of 16 tasks (17.4 GB) is bigger than spark.driver.maxResultSize (11 GB)

Run Code Online (Sandbox Code Playgroud)

所以,我在配置设置中增加了spark.driver.maxResultSizeto 18 G.而且,它工作!!

现在,这很有趣,因为在这两种情况下spark.driver.memory是SMALLER比系列化返回结果.

为什么允许这样做？我认为这是不可能的,因为序列化的结果是17.4 GB在我调试的时候,这超过了驱动程序的大小12 GB,如上所示？

这怎么可能？

我的理解是，当我们要求Spark执行一个操作时，所有分区的结果都会被序列化，但这些结果不需要发送到驱动程序，除非collect()执行诸如a之类的某些操作。

spark.driver.maxResultSize定义了所有分区的序列化结果总大小的限制，并且与实际的大小无关spark.driver.memory。因此，您的代码spark.driver.memory可能小于您的spark.driver.maxResultSize代码，并且您的代码仍然可以工作。

如果您告诉我们此过程中使用的转换和操作或您的代码片段，我们可能会得到更好的想法。

归档时间：	9 年，7 月前
查看次数：	374 次
最近记录：	9 年，6 月前

什么是朋友之间的Int.MaxValue？ 7

从本地 IDE 针对远程 Spark 集群运行 6

我可以在Oracle数据库的默认JDK 1.3上安装JDK 1.6吗？ 5

找不到Spark SQL包 5

在 PySpark 数据帧聚合中计数包括空值 5

PySpark: TypeError: StructType 无法接受类型 <type 'numpy.float64'> 中的对象 0.10000000000000001 4

Spark什么时候会自动清理缓存的RDD？ 4

spark会自动缓存一些结果吗？ 2

Spark SQL-通用数据集读取器 1

Spark 数据框未正确将双引号写入 csv 文件 1

在Bash中提取文件名和扩展名 1969

你如何断言在JUnit 4测试中抛出某个异常？ 1915

<快于<=？ 1508

处理"java.lang.OutOfMemoryError:PermGen space"错误 1215

在HTML中显示哪些字符可用于上/下三角(没有词干的箭头)？ 1212

angular.service vs angular.factory 1061

如何将本地jar文件添加到Maven项目？ 1053

shell脚本中的YYYY-MM-DD格式日期 1045

Vim中的remap,noremap,nnoremap和vnoremap映射命令有什么区别？ 1045

如何列出包含给定提交的分支？ 1029