Spark执行器GC需要很长时间

Ade*_*nde 5 apache-spark apache-spark-sql databricks

我在一个独立的集群上运行Spark工作,我注意到GC开始用了很长时间后开始出现红色可怕的颜色.

以下是可用资源:

Cores in use: 80 Total, 76 Used
Memory in use: 312.8 GB Total, 292.0 GB Used
Run Code Online (Sandbox Code Playgroud)

工作细节:

spark-submit   --class com.mavencode.spark.MonthlyReports   
--master spark://192.168.12.14:7077   
--deploy-mode cluster   --supervise   
--executor-memory 16G --executor-cores 4 
--num-executors 18  --driver-cores 8 
--driver-memory 20G montly-reports-assembly-1.0.jar
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

如何修复GC时间这么长时间?

fat*_*afa 1

我遇到了同样的问题,可以通过使用并行 GC 而不是 G1GC 来解决它。您可以将以下选项添加到提交请求中的执行程序附加 Java 选项

-XX:+UseParallelGC -XX:+UseParallelOldGC
Run Code Online (Sandbox Code Playgroud)