train_test_split函数是否保持类之间的平衡

Question

我有一个问题，我一直在寻找答案，但找不到答案。

如果我有一个使用三个或更多类别标记的数据集，其中每个类别代表数据的 33%。当我分割数据时，训练/验证/测试集是否在类之间保持相同的平衡？

如果没有的话有什么办法保持平衡吗？

提前致谢。

Answer 1

找到了！

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)