我有一个问题,我一直在寻找答案,但找不到答案。
如果我有一个使用三个或更多类别标记的数据集,其中每个类别代表数据的 33%。当我分割数据时,训练/验证/测试集是否在类之间保持相同的平衡?
如果没有的话有什么办法保持平衡吗?
提前致谢。
找到了!
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
归档时间: |
|
查看次数: |
5093 次 |
最近记录: |