sklean.model_selection.StratifiedShuffleSplit 中 n_splits 的目的是什么?

Foz*_*oro 3 python machine-learning scikit-learn

我最近开始使用 sklearn 并偶然发现了 Stratified

ShuffleSplit 函数。即使我理解它的概念和它的意思,我也不太明白它需要运行的参数,例如n_split。根据 sklearn 的文档,它写道

n_splits :int,默认为 10 重新洗牌和拆分迭代的次数。

我最好的猜测是它告诉StratifieShufflesplit函数数据中的 starta 数量。

Jan*_*n K 5

n_splits是几乎每个交叉验证器的参数。通常,它决定了您将创建多少个不同的验证(和训练)集。如果您使用StratifiedShuffleSplit并不表示层数 - 这些是从数据集中分类目标的潜在相对频率中隐含的。

请参阅下面来自官方文档的引用(此处为完整链接)

分层洗牌拆分

StratifiedShuffleSplit 是 ShuffleSplit 的变体,它返回分层拆分,即通过为每个目标类保留与完整集中相同的百分比来创建拆分。