小编Var*_*ted的帖子

训练/测试分割之前或之后的欠采样

我有一个信用卡数据集,其中 98% 的交易是非欺诈交易,2% 是欺诈交易。

我一直在尝试在训练和测试拆分之前对大多数类别进行欠采样,并在测试集上获得非常好的召回率和精度。

当我仅在训练集上进行欠采样并在独立集上进行测试时,我得到的精度非常差,但召回率相同!

我的问题是:

我是否应该在分成 train 和 test 之前进行欠采样,这会扰乱数据集的分布并且不能代表现实世界吗?

或者上述逻辑仅在过采样时适用?

谢谢

classification machine-learning resampling imbalanced-data

2
推荐指数
1
解决办法
1万
查看次数