Gil*_*ove 5 kubernetes apache-flink
感谢您阅读这个问题,它可能看起来很长,但我会尝试在其中获取尽可能多的信息以帮助获得答案。
目前,我们的 Flink 集群遇到了调度问题。
症状是我们的部分/大部分/全部(这取决于情况,症状并不总是相同)任务显示为“已计划”,但在超时后失败。然后,作业将显示为RUNNING。
失败的异常如下:
Caused by: java.util.concurrent.CompletionException: org.apache.flink.runtime.jobmanager.scheduler.NoResourceAvailableException: Slot request bulk is not fulfillable! Could not allocate the required slot within slot request timeout
Run Code Online (Sandbox Code Playgroud)
经过分析,我们假设(我们无法证明这一点,因为这部分代码没有太多日志)失败是由于同时提交多个作业时发生的死锁/竞争条件造成的。 Flink 集群,即使集群中有足够的可用槽。
实际上,我们有 52 个可用任务槽位的错误,并且有 12 个作业未安排。
PS:不久前,我在ML上问了或多或少相同的问题,但放弃了它,如果这被认为是交叉询问,我很抱歉,这不是有意的。我们只是打开一个新线程,因为我们有更多信息并且问题再次出现。
| 归档时间: |
|
| 查看次数: |
2459 次 |
| 最近记录: |