Gio*_*gio 6 performance garbage-collection apache-spark rdd
我正在尝试调整Spark应用程序,以减少总体执行时间,但我在Stage执行期间遇到了一个奇怪的行为.
基本上只有14/120任务需要大约20分钟完成,其他任务需要4或5分钟才能完成.
看一下Spark UI,分区似乎很好,我看到的唯一区别是14个任务的GC时间非常高.
我附上了情况的图像.
我有一个类似的问题,可以通过使用并行GC而不是G1GC来解决它。您可以将以下选项添加到提交请求中的执行程序附加 Java 选项
-XX:+UseParallelGC -XX:+UseParallelOldGC
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1596 次 |
| 最近记录: |