拒绝拆分GroupedShuffleRangeTracker建议的拆分位置超出范围

de1*_*de1 2 google-cloud-dataflow

我偶尔会收到以下错误:

W拒绝在'\ x00 \ x00 \ x00 \ x15 \ xbc \ x19)b \ x00 \ x01'分割:建议的分割位置超出范围['\ x00 \ x00 \ x00 \ x00 \ x15 \ x00 \ xff \ x00 \ xff \ x00 \ xff \ x00 \ xff \ x00 \ x01','\ x00 \ x00 \ x00 \ x15 \ xbc \ x19)b \ x00 \ x01')。最后处理的组的位置是'\ x00 \ x00 \ x00 \ x15 \ xbc \ x19)a \ x00 \ x01'。

发生这种情况时,错误记录得如此频繁,而且作业似乎永远也不会结束。尽管看起来它确实确实完成了这项工作。

在最后一个实例中,我使用10个工作线程,并且禁用了自动缩放功能。我正在使用Apache Beam的Python实现。

jkf*_*kff 5

这不是错误,它是管道正常运行的一部分。我们可能应该将其日志记录级别降低为INFO并将其重新命名,因为它经常使人们感到困惑。

该消息(相当模糊)表明Dataflow正在尝试应用动态重新平衡,但是没有可以进一步细分的工作。

也就是说,您的工作被困在少数工人无法做的事情上,而其他工人则闲着。要对此进行进一步调查,需要查看您的作业代码和Dataflow作业ID。