分类:如果一个类的数据量是另一个类的4倍,会发生什么?

Sre*_*i R 3 python numpy machine-learning keras tensorflow

我正在尝试使用分类器调试问题.问题在于它总是为给定的输入预测相同的类,尽管准确度接近80%.

我训练我的CNN来检测两个班级之间的差异.A级有2575个jpegs,B级有665个jpegs.

这可能导致我的CNN问题始终预测同一个类吗?这是每个班级中的项目之间的不平衡吗?一般来说,如果我使两个类的大小相同(665 jpegs?),我的表现会提高吗?

vij*_*y m 9

问题似乎是类不平衡的情况,有不同的方法来处理它:

  1. 加权损失: 您可以通过计算加权交叉熵来惩罚多数损失函数的奖励.
  2. 重新采样数据:正如您所提到的,您也可以对多数类进行下采样,以平衡类.您还可以对少数类进行上采样以使其均匀.
  3. 生成增强数据:由于您正在处理图像,您可以对少数类进行data augmentation上采样,然后在这些图像上使用,这可以解决类不平衡问题,并解决过度拟合问题并改进泛化.
  4. 和以上所有的组合.