Spark shuffle溢出指标

use*_*449 6 shuffle apache-spark

在spark 2.3集群上运行作业,我在spark webUI中注意到某些任务发生溢出:

在此输入图像描述

据我所知,在reduce方面,reducer获取了所需的分区(shuffle read),然后使用执行程序的执行内存执行reduce计算.由于没有足够的执行内存,一些数据被泄漏.

我的问题:

  1. 我对么 ?
  2. 数据泄漏的地方?Spark webUI声明一些数据溢出到内存shuffle溢出(内存),但没有任何内容溢出到磁盘shuffle spilled(磁盘)

在此先感谢您的帮助