小编Sal*_*ire的帖子

Python中_的作用是什么?

我在某处看到_了Python中使用的字符:

print _
Run Code Online (Sandbox Code Playgroud)

有人可以帮我解释它的作用吗?

python syntax

4
推荐指数
1
解决办法
9024
查看次数

如何平衡某个类具有大量样本的训练数据集?

我一直在使用烂番茄电影评论数据集进行情感分析预测.数据集有5个类{0,1,2,3,4},其中0表示非常负,4表示非常正数数据集非常不平衡,

total samples = 156061

'0': 7072 (4.5%), '1': 27273 (17.4%), '2': 79583 (50.9%), '3': 32927 (21%), '4': 9206 (5.8%)

正如你所看到的,课程2有近50%的样本,0并且5贡献了约10%的训练集

因此,课堂上有很强的偏见,2从而降低了课堂0和课堂分类的准确性4.

我该怎么做才能平衡数据集?一种解决方案是通过将每个类别的样本减少到7072来获得相同数量的样本,但它会大大减少数据集!如何在不影响整体分类准确性的情况下优化和平衡数据集?

machine-learning dataset sampling random-forest scikit-learn

1
推荐指数
1
解决办法
794
查看次数