小编sar*_*ika的帖子

列车测试分割后不平衡数据的欠采样

我正在做一个数据不平衡的项目。我想使用随机欠采样来平衡数据。我很困惑是否应该在测试列车分割后进行欠采样,或者我应该先进行欠采样,然后再进行列车测试分割?

我的方法:

  1. 我使用训练测试分割来获取:X_train、y_train 用于训练,X_test 和 y_test 用于测试。
  2. 我将 X_train 和 y_train 组合成一个数据集并进行欠采样。
  3. 欠采样后,我根据 F1 分数进行交叉验证和模型选择,并使用 X_test.,Y_test 进行预测。

我的做法正确吗?如果我错了,请纠正我。

machine-learning resampling train-test-split

4
推荐指数
1
解决办法
3786
查看次数