我有时看到运行Spark作业时看到以下错误消息:
13/10/21 21:27:35 INFO cluster.ClusterTaskSetManager:丢失是由于spark.SparkException:文件./someJar.jar存在且与...的内容不匹配
这是什么意思?我该如何诊断和解决这个问题?
在日志中挖掘后,我发现"设备上没有剩余空间"异常,然后当我运行df -h并df -i在每个节点上发现一个已满的分区.有趣的是,这个分区似乎没有用于数据,而是临时存储jar.它的名字就像是/var/run或者/run.
解决方案是清理旧文件的分区并设置一些自动清理,我认为设置spark.cleaner.ttl说一天(86400)应该可以防止它再次发生.
| 归档时间: |
|
| 查看次数: |
2114 次 |
| 最近记录: |