在Deepscape v3 +的Cityscapes语义分割数据集训练期间遇到错误

Mil*_*ong 3 tensorflow semantic-segmentation

所有,

我将按照本指南使用deeplab v3 +开始培训过程。但是,在步骤1480之后,我得到了错误:

Error reported to Coordinator: Nan in summary histogram for: image_pooling/BatchNorm/moving_variance_2
Run Code Online (Sandbox Code Playgroud)

详细的火车日志在这里

有人可以建议如何解决这个问题吗?谢谢!

小智 7

根据日志,您似乎正在使用batch_size = 1进行训练,fine_tune_batch_norm = True(默认值)。既然你是在训练中微调一批规范,最好是设置批量大小尽可能大(见注释在train.py和Q5 FAQ)。如果只有有限的GPU内存可用,则可以从提供的预先训练的检查点进行微调,设置较小的学习率,并且fine_tune_batch_norm = False(有关详细信息,请参见model_zoo.md)。请注意,确保标志tf_initial_checkpoint具有指向所需的预训练检查点的正确路径。