在训练用于语义分割的深度学习模型时，处理背景像素类 (ignore_label) 的最佳方法是什么？

Question

我正在尝试在cityscapes数据集上训练一个UNET模型，该模型有 20 个“有用的”语义类和一堆可以忽略的背景类（例如天空、自我车辆、山脉、路灯）。为了训练模型忽略这些背景像素，我在互联网上使用了以下流行的解决方案：

但是这种方法有问题。一旦经过训练，模型最终会将这些背景像素分类为属于 20 个类别之一。这是预期的，因为在损失中，我们不会因为模型对背景像素进行的任何分类而惩罚模型。

因此，第二个明显的解决方案是为所有背景像素使用一个额外的类。因此，它是城市景观中的第 21 级。然而，在这里我担心我会教它对这个额外的不必要的类进行分类，从而“浪费”我的模型的能力。

处理背景像素类的最准确方法是什么？

Answer 1

毫无疑问，第二种解决方案是更好的解决方案。这是最好的解决方案，背景类绝对是附加类，但不是不必要的类，因为这样您想要检测的类和背景之间就有了明显的区别。

事实上，这是分段中推荐的标准程序，用于将类分配给背景，其中背景当然代表除特定类之外的所有其他内容。