多类分类还是回归?

AKS*_*HAN 5 regression classification gaussian conv-neural-network

我正在尝试训练CNN模型,根据他们的美学分数对图像进行分类.有2,00,000张图像,每张图像被超过100个主题评级.计算平均分数并将分数标准化.

在此输入图像描述

分数的分布近似为高斯分布.所以我决定在为每个类分配适当的权重后建立一个10类分类模型,因为数据是不平衡的.

我的问题:

对于这个问题,分数是连续的,即0 <0.2 <0.3 <0.4 <0.5 <.. <1.那是否意味着这是一个回归问题?如果是这样,我如何平衡回归问题的数据,因为大多数数据点存在于0.4和0.6之间.

谢谢!

Sag*_*wda 2

由于标签是连续的,因此您可以使用 pandas.qcut() 等技术将它们分为 10 个相等的分位数,并为每个类提供标签。这可以将回归问题转变为分类问题。

就不平衡而言,您可能需要尝试对少数数据进行过采样。这将确保您的模型不会偏向大多数数据。

希望这可以帮助。