小编Sal*_*ire的帖子

我在某处看到_了Python中使用的字符:

print _

有人可以帮我解释它的作用吗？

4
推荐指数

1
解决办法

9024
查看次数

我一直在使用烂番茄电影评论数据集进行情感分析预测.数据集有5个类{0,1,2,3,4},其中0表示非常负,4表示非常正数数据集非常不平衡,

total samples = 156061

'0': 7072 (4.5%), '1': 27273 (17.4%), '2': 79583 (50.9%), '3': 32927 (21%), '4': 9206 (5.8%)

正如你所看到的,课程2有近50%的样本,0并且5贡献了约10%的训练集

因此,课堂上有很强的偏见,2从而降低了课堂0和课堂分类的准确性4.

我该怎么做才能平衡数据集？一种解决方案是通过将每个类别的样本减少到7072来获得相同数量的样本,但它会大大减少数据集!如何在不影响整体分类准确性的情况下优化和平衡数据集？

1
推荐指数

1
解决办法

794
查看次数

小编Sal_ire的帖子