sklearn中的预定义Split函数

clo*_*g14 8 python scikit-learn

我正在尝试使用我提供的拆分cross_val_score来运行。sklearn该sklearn文档给出了以下示例：

>>> from sklearn.model_selection import PredefinedSplit
>>> X = np.array([[1, 2], [3, 4], [1, 2], [3, 4]])
>>> y = np.array([0, 0, 1, 1])
>>> test_fold = [0, 1, -1, 1]
>>> ps = PredefinedSplit(test_fold)
>>> ps.get_n_splits()
2
>>> print(ps)       
PredefinedSplit(test_fold=array([ 0,  1, -1,  1]))
>>> for train_index, test_index in ps.split():
...    print("TRAIN:", train_index, "TEST:", test_index)
...    X_train, X_test = X[train_index], X[test_index]
...    y_train, y_test = y[train_index], y[test_index]
TRAIN: [1 2 3] TEST: [0]
TRAIN: [0 2] TEST: [1 3]

Run Code Online (Sandbox Code Playgroud)

我在理解这个例子时遇到了困难。尤其，

ps.get_n_splits()在这个例子中为什么返回 2？和
为什么test_fold数组会导致代码片段底部显示的拆分？

另外，我想问一下，在这种情况下，如果我将 ps 对象传递给cross_val_score中的函数sklearn，它是否会与这两个分割进行交叉验证？

分割数是 test_folder 中排除的唯一值 (-1)。

使用此示例使用 test_fold = [0, 1, -1, 1],

零索引为0，表示测试集为0，其余1、2、3为训练集。

  --- > TRAIN: [1 2 3] TEST: [0]

Run Code Online (Sandbox Code Playgroud)

- 第一个和第三个索引为1，表示测试集为1、3，其余的0、2为训练集

  ---> TRAIN: [0 2] TEST: [1 3]

Run Code Online (Sandbox Code Playgroud)

第二个索引是-1，表示没有训练/测试分割。
请注意，整数值本身确实有所不同，因此如果 test_folder = [5, 0, -1, 0]，则分割是相同的

  --- > TRAIN: [1 2 3] TEST: [0]

Run Code Online (Sandbox Code Playgroud)

最后，对于典型的 k 文件夹分割，可以使用 test_fold = [0, 1, 2, 3]

您能否更好地格式化您的答案以使其更清晰？ (6认同)
这应该添加到 Sklearn 文档中。 (2认同)

归档时间：	8 年，4 月前
查看次数：	6392 次
最近记录：	2 年，11 月前

Python，机器学习-对自定义验证集执行网格搜索 2

更多相关链接

TypeError:'module'对象不可调用 491

如何删除numpy数组中的特定元素 180

如何在Python中打印粗体文本？ 125

为什么在使用Python中的Dictwriter输出时,CSV文件在每个数据行之间包含一个空行 89

在Mac OS X上安装了Python 3,但它仍然是Python 2.7 52

Python:模拟上下文管理器 50

禁用boto日志记录而不修改boto文件 43

pandas - 将多个JSON记录读入数据帧 43

适用于大型数据集的TFIDF 32

有没有办法检索由 sklearn.tree.DecisionTreeClassifier 生成的最终节点数？ 4

如何查看远程Git分支？ 6408

"INNER JOIN"和"OUTER JOIN"有什么区别？ 4506

将现有的,未提交的工作移动到Git中的新分支 2982

浮点数学是否破碎？ 2798

在vi中快速缩进多行 2111

使当前的Git分支成为主分支 1555

我怎样才能找到带有Mathematica的Waldo？ 1538

如何有效地计算JavaScript中对象的键/属性数？ 1452

Ukkonen的简明英语后缀树算法 1065

自定义HTTP标头:命名约定 1051