小编sar_ika的帖子

列车测试分割后不平衡数据的欠采样

我正在做一个数据不平衡的项目。我想使用随机欠采样来平衡数据。我很困惑是否应该在测试列车分割后进行欠采样，或者我应该先进行欠采样，然后再进行列车测试分割？

我的方法：

我使用训练测试分割来获取：X_train、y_train 用于训练，X_test 和 y_test 用于测试。
我将 X_train 和 y_train 组合成一个数据集并进行欠采样。
欠采样后，我根据 F1 分数进行交叉验证和模型选择，并使用 X_test.,Y_test 进行预测。

我的做法正确吗？如果我错了，请纠正我。

machine-learning resampling train-test-split

4
推荐指数

1
解决办法

3786
查看次数

标签统计

machine-learning ×1

train-test-split ×1