train_test_split函数是否保持类之间的平衡

lei*_*ila 4 scikit-learn

我有一个问题,我一直在寻找答案,但找不到答案。

如果我有一个使用三个或更多类别标记的数据集,其中每个类别代表数据的 33%。当我分割数据时,训练/验证/测试集是否在类之间保持相同的平衡?

如果没有的话有什么办法保持平衡吗?

提前致谢。

lei*_*ila 8

找到了!

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)