Spark Stage性能,发现GC Time非常高,仅适用于少数任务

Gio*_*gio 6 performance garbage-collection apache-spark rdd

我正在尝试调整Spark应用程序,以减少总体执行时间,但我在Stage执行期间遇到了一个奇怪的行为.

基本上只有14/120任务需要大约20分钟完成,其他任务需要4或5分钟才能完成.

看一下Spark UI,分区似乎很好,我看到的唯一区别是14个任务的GC时间非常高.

我附上了情况的图像.

你有什么想法找到性能解决方案吗? 在此输入图像描述 在此输入图像描述

fat*_*afa 0

我有一个类似的问题,可以通过使用并行GC而不是G1GC来解决它。您可以将以下选项添加到提交请求中的执行程序附加 Java 选项

-XX:+UseParallelGC -XX:+UseParallelOldGC
Run Code Online (Sandbox Code Playgroud)