标签: classification

我使用R中的插入包进行分类.我在训练集上使用重复的10倍交叉验证来拟合一些模型(GBM,线性SVM,NB,LDA).使用自定义trainControl,插入符号甚至可以为我提供一系列模型性能指标,如ROC,Spec/sens,Kappa,测试折叠的准确度.真的很棒.我希望还有一个指标:模型校准的一些衡量标准.

我注意到插入符号中有一个功能可以创建校准图来估计数据部分模型的一致性.在交叉验证的模型构建过程中,是否可以为每个测试折叠计算插入符号？或者它只能应用于我们正在进行预测的一些新的数据吗？

对于某些情况,目前我有这样的事情:

fitControl <- trainControl(method = "repeatedcv", repeats=2, number = 10, classProbs = TRUE, summaryFunction = custom.summary)
gbmGrid <-  expand.grid(.interaction.depth = c(1,2,3),.n.trees = seq(100,800,by=100),.shrinkage = c(0.01))
gbmModel <- train(y= train_target, x = data.frame(t_train_predictors),
              method = "gbm",
              trControl = fitControl,
              tuneGrid = gbmGrid,
              verbose = FALSE)

Run Code Online (Sandbox Code Playgroud)

如果它有帮助,我使用~25个数字预测器,N = 2,200,预测一个两级因子.

非常感谢您的任何帮助/建议.亚当

r classification machine-learning calibration r-caret

Ach*_*oud

2015 11-08

2
推荐指数

1
解决办法

1995
查看次数

Vowpal Wabbit模型在使用像素RGB值的图像的多类分类上工作得很糟糕

我正在使用Vowpal Wabbit对多类图像进行分类.我的数据集类似于http://www.cs.toronto.edu/~kriz/cifar.html,包含3000个训练样本和500个测试样本.这些功能是32*32图像的RGB值.我使用Vowpal Wabbit Logistic损失函数来训练模型100次迭代.在训练过程中,平均损失低于0.02(我认为这个数字非常好吗？).然后我用输出模型预测训练集的标签,并预测预测非常糟糕.几乎所有人都属于第六类.我真的不知道发生了什么,因为在我看来,在训练过程中预测大多是正确的,但是在我用模型预测之后他们突然变成全部6.

这是一个功能示例.

1 | 211 174 171 165 161 161 162 163 163 163 163 163 163 163 163 163 162 161 162 163 163 163 163 164 165 167 168 167 168 163 160 187 153 102 96 90 89 90 91 92 92 92 92 92 92 92 92 92 92 92 91 90 90 90 90 91 92 94 95 96 99 97 98 127 111 71 71 64 66 68 69 …

image classification machine-learning vowpalwabbit logistic-regression

TH0*_*000

2016 05-13

2
推荐指数

1
解决办法

496
查看次数

设置R~Caret包中的树木数量

我目前想知道使用Caret包中的随机森林算法设置10棵树的方法,并希望可以获得帮助:

下面是我的语法:

tr <- trainControl(method = "repeatedcv",number = 20)

fit<-train(y ~.,method="rf",data=example, trControl=tr)

Run Code Online (Sandbox Code Playgroud)

关于http://www.inside-r.org/packages/cran/randomForest/docs/randomForest的研究

在使用n=10 中randomForest() 或 n.trees在使用情况下设置为参数gbm可能仅仅有帮助,但我对该Caret包感兴趣.

任何反馈都将非常感激.

谢谢

tree r classification random-forest r-caret

own*_*ner

lucky-day

2
推荐指数

2
解决办法

2220
查看次数

如何在keras中可视化卷积神经网络中间层的输出？

最近我为猫狗分类创建了基本的CNN模型(非常基础).如何使用keras可视化这些图层的输出？我使用Tensorflow后端进行keras.

python classification conv-neural-network keras tensorflow

Afr*_*rid

lucky-day

2
推荐指数

1
解决办法

1284
查看次数

循环遍历字典值并随后打印

我试图以层次结构格式打印以下字典

fam_dict{'6081740103':['60817401030000','60817401030100','60817401030200',
'60817401030300','60817401030400','60817401030500','60817401030600']

Run Code Online (Sandbox Code Playgroud)

如下图所示:

60817401030000
    60817401030100
        60817401030200
            60817401030400
                60817401030500
                    60817401030600

Run Code Online (Sandbox Code Playgroud)

到目前为止,我有以下代码,但我必须手动输入每行的第i个索引.如何以递归格式重新调整此代码,而不必计算多少行代码并每次手动输入索引值

  my_p = node(fam_dict['6081740103'][0], None)
    my_c = node(fam_dict['6081740103'][1], my_p)
    my_d = node(fam_dict['6081740103'][2], my_c)
    my_e = node(fam_dict['6081740103'][4], my_d)
    my_f = node(fam_dict['6081740103'][5], my_e)
    my_g = node(fam_dict['6081740103'][6], my_f)

    print (my_p.name)
    print_children(my_p)

Run Code Online (Sandbox Code Playgroud)

python dictionary for-loop classification hierarchy

nm6*_*834

lucky-day

2
推荐指数

1
解决办法

69
查看次数

如何在sklearn中使用交叉验证执行SMOTE

我有一个高度不平衡的数据集，并希望执行SMOTE来平衡数据集并进行交叉验证以测量准确性。但是，大多数现有教程仅利用单次training和testing迭代来执行SMOTE。

因此，我想知道使用交叉验证执行SMOTE的正确过程。

我当前的代码如下。但是，如上所述，它仅使用一次迭代。

from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
sm = SMOTE(random_state=2)
X_train_res, y_train_res = sm.fit_sample(X_train, y_train.ravel())
clf_rf = RandomForestClassifier(n_estimators=25, random_state=12)
clf_rf.fit(x_train_res, y_train_res)

Run Code Online (Sandbox Code Playgroud)

如果需要，我很乐意提供更多详细信息。

python classification machine-learning scikit-learn cross-validation

EmJ*_*EmJ

2019 04-09

2
推荐指数

2
解决办法

1298
查看次数