小编Ven*_*r M的帖子

spark job继续显示TaskCommitDenied(驱动程序拒绝任务提交)

环境:

我们正在使用EMR,Spark 2.1和EMR FS.

我们正在做的流程:

我们正在运行PySpark作业来加入2个Hive表,并使用saveAsTable基于此结果创建另一个hive表,并将其存储为带分区的ORC

问题:

18/01/23 10:21:28 INFO OutputCommitCoordinator: Task was denied committing, 
stage: 84, partition: 901, attempt: 10364
18/01/23 10:21:28 INFO TaskSetManager: Starting task 901.10365 in stage 84.0 
(TID 212686, ip-172-31-46-97.ec2.internal, executor 10, partition 901, 
PROCESS_LOCAL, 6235 bytes)
18/01/23 10:21:28 WARN TaskSetManager: Lost task 884.10406 in stage 84.0 
(TID 212677, ip-172-31-46-97.ec2.internal, executor 85): TaskCommitDenied 
(Driver denied task commit) for job: 84, partition: 884, attemptNumber: 10406
Run Code Online (Sandbox Code Playgroud)

这个特定的日志信息是从Spark日志中递归出来的,当我们杀死这个作业时,我们已经看到这个约为~170000(160595)次,如下所示:Spark-Task Commit Denied

源代码中可以看出:

/** * :: DeveloperApi :: …
Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark pyspark-sql apache-spark-2.0

6
推荐指数
1
解决办法
870
查看次数