Spark UI:如何理解 DAG 中的最小值/中值/最大值

min*_*pro 6 performance bigdata apache-spark apache-spark-sql spark-ui

我想完全理解有关 min/med/max 信息的含义。

例如:

scan time total(min, med, max)
34m(3.1s, 10.8s, 15.1s)
Run Code Online (Sandbox Code Playgroud)

平均所有核心的扫描时间最短为 3.1 秒,最长为 15.1 秒,累计总时间长达 34 分钟,对吗?

然后对于

data size total (min, med, max)
8.2GB(41.5MB, 42.2MB, 43.6MB)
Run Code Online (Sandbox Code Playgroud)

意味着所有核心的最大使用量是 43.6MB,最小使用量是 41.5MB,对吧?

所以同样的逻辑,对于左边的排序步骤,每个核心使用了 80MB 的 RAM。

现在,执行器有 4 个核心和 6G RAM,根据 metrix,我认为已经预留了很多 RAM,因为每个核心最多可以使用 1G 左右的 RAM。所以我想尝试减少分区数量并强制每个执行器处理更多数据并减少shuffle大小,您认为理论上可能吗?

在此输入图像描述