我一直在使用烂番茄电影评论数据集进行情感分析预测.数据集有5个类{0,1,2,3,4},其中0表示非常负,4表示非常正数数据集非常不平衡,
total samples = 156061
'0': 7072 (4.5%),
'1': 27273 (17.4%),
'2': 79583 (50.9%),
'3': 32927 (21%),
'4': 9206 (5.8%)
正如你所看到的,课程2有近50%的样本,0并且5贡献了约10%的训练集
因此,课堂上有很强的偏见,2从而降低了课堂0和课堂分类的准确性4.
我该怎么做才能平衡数据集?一种解决方案是通过将每个类别的样本减少到7072来获得相同数量的样本,但它会大大减少数据集!如何在不影响整体分类准确性的情况下优化和平衡数据集?
machine-learning dataset sampling random-forest scikit-learn