用于多类目标检测的分层 K 折？

Question

用于多类目标检测的分层 K 折？

M.I*_*nat 5 python object-detection scikit-learn cross-validation

更新

我已经上传了一个虚拟数据集，链接在这里。这df.head()：

它总共有4 个类df.object.value_counts()：

human    23
car      13
cat       5
dog       3

Run Code Online (Sandbox Code Playgroud)

我想对K-Fold多类对象检测数据集进行正确的验证分割。

初步方法

为了实现正确的 k 倍验证分割，我考虑了object counts和的数量bounding box。据我了解，K-fold拆分策略主要取决于数据集（元信息）。但现在对于这些数据集，我尝试了如下操作：

human    23
car      13
cat       5
dog       3

Run Code Online (Sandbox Code Playgroud)

拆分后，我检查了它是否正常工作。到目前为止看起来还不错。

所有的褶皱都包含分层k-fold样本，len(df_folds[df_folds['fold'] == fold_number].index)并且彼此之间没有交集，set(A).intersection(B)其中A和B是两个褶皱的指数值（image_id）。但问题似乎是这样的：

Fold 0 has total: 18 + 2 + 3 = 23 bbox
Fold 1 has total: 2 + 11 = 13 bbox
Fold 2 has total: 5 + 3 = 8 bbox

Run Code Online (Sandbox Code Playgroud)

忧虑

但是，我无法确定这是否是完成此类任务的正确方法。我想要一些建议。上面的方法可以吗？或者有什么问题吗？或者有更好的方法！任何形式的建议将不胜感激。谢谢。

Answer 1

Dr *_*ora -1

您可以直接使用 StratifiedKFold() 或 StratifiedShuffleSplit() 来根据某些分类列使用分层采样来分割数据集。

虚拟数据：

import pandas as pd
import numpy as np

np.random.seed(43)
df = pd.DataFrame({'ID': (1,1,2,2,3,3),
               'Object': ('bus', 'car', 'bus', 'bus', 'bus', 'car'),
               'X' : np.random.randint(0, 10, 6),
               'Y' : np.random.randn(6)

})


df

Run Code Online (Sandbox Code Playgroud)

使用 StratifiedKFold()

from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=2)

for train_index, test_index in skf.split(df, df["Object"]):
        strat_train_set_1 = df.loc[test_index]
        strat_test_set_1 = df.loc[test_index]

print('train_set :', strat_train_set_1, '\n' , 'test_set :', strat_test_set_1)

Run Code Online (Sandbox Code Playgroud)

同样，如果您选择使用 StratifiedShuffleSplit()，您可以

from sklearn.model_selection import StratifiedShuffleSplit

sss = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
# n_splits = Number of re-shuffling & splitting iterations.

for train_index, test_index in sss.split(df, df["Object"]):
 # split(X, y[, groups]) Generates indices to split data into training and test set.

        strat_train_set = df.loc[train_index]
        strat_test_set = df.loc[test_index]

print('train_set :', strat_train_set, '\n' , 'test_set :', strat_test_set)

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，1 月前
查看次数：	4077 次
最近记录：	3 年，11 月前