Scikit Learn 中的交叉验证

Question

为了交叉验证逻辑回归分类器。我得到的结果是：

[ 0.78571429  0.64285714  0.85714286  0.71428571  
0.78571429  0.64285714    0.84615385  0.53846154  
0.76923077  0.66666667]

我的主要问题是如何找到哪个集合/折叠使我的分类器得分最大化并产生 0.857。

后续问题：用这组训练我的分类器是一个好习惯吗？

先感谢您。

Answer 1

我是否以及如何找到哪个集合/折叠最大化了我的分类器的分数

从的文档中cross_val_score，您可以看到它对特定cv对象进行操作。（如果您没有明确给出它，那么KFold在某些情况下会是其他情况，在其他情况下会是其他情况 - 请参阅那里的文档。）

您可以遍历此对象（或相同的对象）以找到确切的训练/测试索引。例如：

for tr, te in KFold(10000, 3):
    # tr, te in each iteration correspond to those which gave you the scores you saw.

用这个集合训练我的分类器是否是一个好习惯。

绝对不！

交叉验证的唯一合法用途是评估整体性能、在不同模型之间进行选择或配置模型参数。

一旦你致力于一个模型，你应该在整个训练集上训练它。在恰好给出最佳分数的子集上训练它是完全错误的。