Spark UI：如何理解 DAG 中的最小值/中值/最大值

min*_*pro 6 performance bigdata apache-spark apache-spark-sql spark-ui

我想完全理解有关 min/med/max 信息的含义。

例如：

scan time total(min, med, max)
34m(3.1s, 10.8s, 15.1s)

Run Code Online (Sandbox Code Playgroud)

平均所有核心的扫描时间最短为 3.1 秒，最长为 15.1 秒，累计总时间长达 34 分钟，对吗？

然后对于

data size total (min, med, max)
8.2GB(41.5MB, 42.2MB, 43.6MB)

Run Code Online (Sandbox Code Playgroud)

意味着所有核心的最大使用量是 43.6MB，最小使用量是 41.5MB，对吧？

所以同样的逻辑，对于左边的排序步骤，每个核心使用了 80MB 的 RAM。

现在，执行器有 4 个核心和 6G RAM，根据 metrix，我认为已经预留了很多 RAM，因为每个核心最多可以使用 1G 左右的 RAM。所以我想尝试减少分区数量并强制每个执行器处理更多数据并减少shuffle大小，您认为理论上可能吗？

归档时间：	6 年，3 月前
查看次数：	890 次
最近记录：	6 年，3 月前

在C#中保存字典<String,Int32> - 序列化？ 17

cassandra的cqlsh控制台中的操作超时错误 14

(null)在Pyspark上的saveAsTextFile()中的命令字符串异常中的条目 13

De Bruijn算法二进制数字计数64位C# 9

Apache Kafka在PACELC-Theorem中的位置 9

为什么Spark Planner更喜欢通过混乱散列连接进行排序合并连接？ 8

Spark 2.0中的全阶段代码生成 7

48K csv文件,每行1000行.如何重新设计数据存储？ 5

如何在Scala中将DataFrame模式写入文件 3

在 spark 中，在添加新行时，它们是否可以替代 union() 函数？ 1

如何从JavaScript中删除数组中的特定元素？ 7655

使用"let"和"var"在JavaScript中声明变量有什么区别？ 4199

如何列出目录的所有文件？ 3474

__str__和__repr__之间的区别？ 2545

如何按字典值对字典列表进行排序？ 1722

JavaScript发布请求,如表单提交 1465

如何检查对象是否在JavaScript中具有属性？ 1396

Git diff对付藏匿处 1265

自定义HTTP标头:命名约定 1051

群集和非群集索引实际上意味着什么？ 1041