XgBoost:y中填充最少的类只有1个成员,这个成员太少了

Ken*_*han 6 python scikit-learn cross-validation xgboost

我在sklearn上使用Xgboost实现了一个讨人喜欢的比赛.但是,我收到此"警告"消息:

$ python Script1.py /home/sky/private/virtualenv15.0.1dev/myVE/local/lib/python2.7/site-packages/sklearn/cross_validation.py:516:

警告:y中填充最少的类只有1个成员,这个成员太少了.任何类的最小标签数不能少于n_folds = 3.%(min_labels,self.n_folds)),警告)

根据stackoverflow的另一个问题:"检查每个类至少有3个样本能够用k == 3进行StratifiedKFold交叉验证(我认为这是GridSearchCV用于分类的默认CV)."

好吧,我每班至少有3个样本.

所以我的问题是:

a)有哪些替代方案?

b)为什么我不能使用交叉验证?

c)我可以使用什么?

...
param_test1 = {
    'max_depth': range(3, 10, 2),
    'min_child_weight': range(1, 6, 2)
}

grid_search = GridSearchCV(

estimator=
XGBClassifier(
    learning_rate=0.1,
    n_estimators=3000,
    max_depth=15,
    min_child_weight=1,
    gamma=0,
    subsample=0.8,
    colsample_bytree=0.8,
    objective='multi:softmax',
    nthread=42,
    scale_pos_weight=1,
    seed=27),

    param_grid=param_test1, scoring='roc_auc', n_jobs=42, iid=False, cv=None, verbose=1)
...

grid_search.fit(train_x, place_id)
Run Code Online (Sandbox Code Playgroud)

参考文献:

使用scikit-learn进行一次性学习

在scikit-learn中使用带有多项式内核的支持向量分类器

Rab*_*bit 5

如果您的目标/类只有一个样本,那么对于任何模型来说都太少了。您可以做的是获得另一个数据集,最好尽可能平衡,因为大多数模型在平衡集中表现得更好。

如果你不能拥有另一个数据集,你将不得不使用你拥有的数据。我建议您删除具有孤独目标的样本。因此,您将拥有一个不涵盖该目标的模型。如果这不符合您的要求,您需要一个新的数据集。

  • 由于您使用的是 CV,您必须进行这个简单的分析(检查每个目标中有多少样本)。只需计算您的目标向量/列或使用混淆矩阵,即可获得这些数字。最后,您可以使用 Stratified K-fold CV,它保留了数据集的原始平衡。这解决了 CV 的问题,但您可能仍然有一个非常倾斜/不平衡的集合,这会损害您的模型。这是分层 K 折 CV 的 SKlearn 函数:[链接] (http://scikit-learn.org/stable/modules/generated/sklearn.cross_validation.StratifiedKFold.html) (2认同)