为什么Spark Shuffle Spill（内存）远大于Shuffle Read Size？什么是随机溢出（磁盘）？

Shi*_*arg 5 shuffle apache-spark

在 Spark 中，Map 任务将输出保存在本地磁盘的文件中（单个排序和合并的数据文件 + 索引/Map 任务）。此过程称为 ShuffleWrite。

在reduce阶段，使用外部shuffle服务（如果启用）读取Map输出文件，在读取数据时reduce任务应用Tim排序。

但为什么Shuffle的溢出（内存）远大于读取的数据总量呢？

归档时间：	5 年，6 月前
查看次数：	282 次
最近记录：	5 年，6 月前

如何在火花中使用jni？ 6

如何判断执行程序中的可用内存量 6

尝试使用 Sparklyr 将 R 连接到 Spark 5

按日期排序Spark数据框列的数组 5

如何在scala中执行OUTER JOIN 3

Spark：替换嵌套列中的空值 3

正则表达式在 PySpark Dataframe 列中查找所有不包含 _(Underscore) 和 :(Colon) 的字符串 3

如何在独立环境中启动apache-spark slave实例？ 2

如何在Java中解析Spark流中的复杂JSON数据 1

从 pyspark 会话中获取 hive 和 hadoop 版本 1

为什么处理排序数组比处理未排序数组更快？ 23665

在一行中初始化ArrayList 2626

我怎么知道通过jQuery选择了哪个单选按钮？ 2583

如何用Vim中的换行符替换字符？ 1870

如何使用Bash将stdout和stderr重定向并附加到文件中？ 1440

纯JavaScript相当于jQuery的$ .ready() - 如何在页面/ DOM准备就绪时调用函数 1244

如何获得最近提交的Git分支列表？ 1197

如何让jQuery执行同步而非异步的Ajax请求？ 1173

为特定提交生成git补丁 1144

如何按值排序多维数组？ 1058