标签: classification

搜索实体名称数据库(学院,城市,个性,国家......)

对于我和其他人正在进行的企业应用程序研究项目,我们希望从页面中删除某些内容,以使发布的消息保持通用(意味着不具有攻击性且基本上是匿名的).现在我们想要收到用户已发布到留言板的消息,并删除任何类型的名称,学院或机构的名称以及亵渎(如果以后可能我们想删除商家名称).

是否有一些我们可以连接到的数据库,我们可以运行擦除我们的消息以检查数据库中的值以识别这些?

database filtering classification linguistics

2
推荐指数
1
解决办法
328
查看次数

分类网站

我需要抓住一千个共享相同结构的网站:它们都有菜单,标题,一些文本和评级,就像博客一样.不幸的是,它们的编码方式也有很大不同,有些是手动的,所以我不能重新使用CSS选择器,甚至可能不依赖它们.

我想知道如何自动对它们进行分类并保存我的头发.我的第一个猜测是使用lynx或文本浏览器来获取一些文本块并根据它们的大小对它们进行分类.

你知道一种更好或更复杂的方法吗?

谢谢!

classification web-crawler web-scraping

2
推荐指数
1
解决办法
1194
查看次数

为什么随着特征数量的增加,使用svm时分类精度会降低

libsvm用于图像分类.为什么当我使用更多功能进行分类时,我的预测精度会降低 它不应该增加?我的数据集大小固定为1600,用于培训,400用于测试.

matlab classification svm

2
推荐指数
1
解决办法
1375
查看次数

R中的树:回归与分类

我在R中使用树库,但是当我将数据放入树命令时,有时我会得到一个回归树,有时候会得到一个分类树.这是关于什么的?谢谢!

tree regression r classification

2
推荐指数
1
解决办法
328
查看次数

在插入符号的交叉验证过程中计算模型校准?

第一次在这里发布海报,为新秀错误道歉

我使用R中的插入包进行分类.我在训练集上使用重复的10倍交叉验证来拟合一些模型(GBM,线性SVM,NB,LDA).使用自定义trainControl,插入符号甚至可以为我提供一系列模型性能指标,如ROC,Spec/sens,Kappa,测试折叠的准确度.真的很棒.我希望还有一个指标:模型校准的一些衡量标准.

我注意到插入符号中有一个功能可以创建校准图来估计数据部分模型的一致性.在交叉验证的模型构建过程中,是否可以为每个测试折叠计算插入符号?或者它只能应用于我们正在进行预测的一些新的数据吗?

对于某些情况,目前我有这样的事情:

fitControl <- trainControl(method = "repeatedcv", repeats=2, number = 10, classProbs = TRUE, summaryFunction = custom.summary)
gbmGrid <-  expand.grid(.interaction.depth = c(1,2,3),.n.trees = seq(100,800,by=100),.shrinkage = c(0.01))
gbmModel <- train(y= train_target, x = data.frame(t_train_predictors),
              method = "gbm",
              trControl = fitControl,
              tuneGrid = gbmGrid,
              verbose = FALSE)
Run Code Online (Sandbox Code Playgroud)

如果它有帮助,我使用~25个数字预测器,N = 2,200,预测一个两级因子.

非常感谢您的任何帮助/建议.亚当

r classification machine-learning calibration r-caret

2
推荐指数
1
解决办法
1995
查看次数

Vowpal Wabbit模型在使用像素RGB值的图像的多类分类上工作得很糟糕

我正在使用Vowpal Wabbit对多类图像进行分类.我的数据集类似于http://www.cs.toronto.edu/~kriz/cifar.html,包含3000个训练样本和500个测试样本.这些功能是32*32图像的RGB值.我使用Vowpal Wabbit Logistic损失函数来训练模型100次迭代.在训练过程中,平均损失低于0.02(我认为这个数字非常好吗?).然后我用输出模型预测训练集的标签,并预测预测非常糟糕.几乎所有人都属于第六类.我真的不知道发生了什么,因为在我看来,在训练过程中预测大多是正确的,但是在我用模型预测之后他们突然变成全部6.

这是一个功能示例.

1 | 211 174 171 165 161 161 162 163 163 163 163 163 163 163 163 163 162 161 162 163 163 163 163 164 165 167 168 167 168 163 160 187 153 102 96 90 89 90 91 92 92 92 92 92 92 92 92 92 92 92 91 90 90 90 90 91 92 94 95 96 99 97 98 127 111 71 71 64 66 68 69 …

image classification machine-learning vowpalwabbit logistic-regression

2
推荐指数
1
解决办法
496
查看次数

设置R~Caret包中的树木数量

我目前想知道使用Caret包中的随机森林算法设置10棵树的方法,并希望可以获得帮助:

下面是我的语法:

tr <- trainControl(method = "repeatedcv",number = 20)

fit<-train(y ~.,method="rf",data=example, trControl=tr)
Run Code Online (Sandbox Code Playgroud)

关于http://www.inside-r.org/packages/cran/randomForest/docs/randomForest的研究

在使用n=10randomForest()n.trees在使用情况下设置为参数gbm可能仅仅有帮助,但我对该Caret包感兴趣.

任何反馈都将非常感激.

谢谢

tree r classification random-forest r-caret

2
推荐指数
2
解决办法
2220
查看次数

如何在keras中可视化卷积神经网络中间层的输出?

最近我为猫狗分类创建了基本的CNN模型(非常基础).如何使用keras可视化这些图层的输出?我使用Tensorflow后端进行keras.

python classification conv-neural-network keras tensorflow

2
推荐指数
1
解决办法
1284
查看次数

循环遍历字典值并随后打印

我试图以层次结构格式打印以下字典

fam_dict{'6081740103':['60817401030000','60817401030100','60817401030200',
'60817401030300','60817401030400','60817401030500','60817401030600'] 
Run Code Online (Sandbox Code Playgroud)

如下图所示:

60817401030000
    60817401030100
        60817401030200
            60817401030400
                60817401030500
                    60817401030600
Run Code Online (Sandbox Code Playgroud)

到目前为止,我有以下代码,但我必须手动输入每行的第i个索引.如何以递归格式重新调整此代码,而不必计算多少行代码并每次手动输入索引值

  my_p = node(fam_dict['6081740103'][0], None)
    my_c = node(fam_dict['6081740103'][1], my_p)
    my_d = node(fam_dict['6081740103'][2], my_c)
    my_e = node(fam_dict['6081740103'][4], my_d)
    my_f = node(fam_dict['6081740103'][5], my_e)
    my_g = node(fam_dict['6081740103'][6], my_f)

    print (my_p.name)
    print_children(my_p)
Run Code Online (Sandbox Code Playgroud)

python dictionary for-loop classification hierarchy

2
推荐指数
1
解决办法
69
查看次数

如何在sklearn中使用交叉验证执行SMOTE

我有一个高度不平衡的数据集,并希望执行SMOTE来平衡数据集并进行交叉验证以测量准确性。但是,大多数现有教程仅利用单次trainingtesting迭代来执行SMOTE。

因此,我想知道使用交叉验证执行SMOTE的正确过程。

我当前的代码如下。但是,如上所述,它仅使用一次迭代。

from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
sm = SMOTE(random_state=2)
X_train_res, y_train_res = sm.fit_sample(X_train, y_train.ravel())
clf_rf = RandomForestClassifier(n_estimators=25, random_state=12)
clf_rf.fit(x_train_res, y_train_res)
Run Code Online (Sandbox Code Playgroud)

如果需要,我很乐意提供更多详细信息。

python classification machine-learning scikit-learn cross-validation

2
推荐指数
2
解决办法
1298
查看次数