标签: classification

Directory dir = FSDirectory.open(new File(indexDir));
    IndexReader ir = IndexReader.open(dir);
    for (int docNum=0; docNum<ir.numDocs(); docNum++) {
        System.out.println(ir.document(docNum).getField("filename").stringValue());
        TermFreqVector tfv = ir.getTermFreqVector(docNum, "contents");
        if (tfv == null) {
        // ignore empty fields
        continue;
        }
        String terms[] = tfv.getTerms();
        int termCount = terms.length;
        int freqs[] = tfv.getTermFrequencies();

        for (int t=0; t < termCount; t++) {
        System.out.println(terms[t] + " " + freqs[t]);
        }
    }

Run Code Online (Sandbox Code Playgroud)

在lucene中有没有任何buit-in功能让我这样做？

没有人帮忙,我自己做了:

    Directory dir = FSDirectory.open(new File(indexDir));
    IndexReader ir = IndexReader.open(dir);

    int docNum;
    for (docNum = 0; docNum<ir.numDocs(); …

Run Code Online (Sandbox Code Playgroud)

java lucene classification

ore*_*ani

2012 02-09

16
推荐指数

1
解决办法

1万
查看次数

确定这两个类是否可线性分离(在2D中算法)

有两个类,我们称之为X和O.属于这些类的许多元素在xy平面中展开.下面是两个类不可线性分离的示例.无法绘制直线,在线的每一侧完美地划分X和Os.

两个类的成员分布在xy平面上

一般来说,如何确定两个类是否可线性分离？.我对一种算法感兴趣,该算法不对元素的数量或它们的分布做出假设.当然优选最低计算复杂度的算法.

algorithm math classification machine-learning

Håv*_*hus

2014 04-20

16
推荐指数

3
解决办法

8325
查看次数

监控Caffe的培训/验证过程

我正在训练Caffe参考模型来分类图像.我的工作要求我通过在整个训练集和分别具有100K和50K图像的验证集的每1000次迭代之后绘制模型的准确性图来监视训练过程.现在,我采取天真的方法,在每1000次迭代后制作快照,运行C++分类代码,该代码读取原始JPEG图像并转发到网络并输出预测标签.但是,这在我的机器上花费了太多时间(使用Geforce GTX 560 Ti)

有没有更快的方法可以在训练集和验证集上获得快照模型的准确性图表？

我在考虑使用LMDB格式而不是原始图像.但是,我找不到有关使用LMDB格式在C++中进行分类的文档/代码.

c++ classification deep-learning caffe conv-neural-network

Duc*_*ong

2015 08-13

16
推荐指数

1
解决办法

1万
查看次数

Scikit-learn混淆矩阵

我无法弄清楚我是否正确设置了二进制分类问题.我标记了正类1和负0.但是我的理解是默认情况下scikit-learn在其混淆矩阵中使用0类作为正类(因此我将其设置为反向).这对我来说很困惑.在scikit-learn的默认设置中,排名是正面还是负面？让我们假设混淆矩阵输出:

confusion_matrix(y_test, preds)
 [ [30  5]
    [2 42] ]

Run Code Online (Sandbox Code Playgroud)

它在混淆矩阵中会是什么样子？实际实例是scikit-learn中的行还是列？

          prediction                        prediction
           0       1                          1       0
         -----   -----                      -----   -----
      0 | TN   |  FP        (OR)         1 |  TP  |  FP
actual   -----   -----             actual   -----   -----
      1 | FN   |  TP                     0 |  FN  |  TN

Run Code Online (Sandbox Code Playgroud)

python classification machine-learning scikit-learn

OAK*_*OAK

2016 02-05

16
推荐指数

3
解决办法

1万
查看次数

如何添加另一个功能(文本的长度)到当前的单词分类？Scikit学习

我正在用文字袋来分类文字.它运作良好,但我想知道如何添加一个不是一个单词的功能.

这是我的示例代码.

import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.svm import LinearSVC
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.multiclass import OneVsRestClassifier

X_train = np.array(["new york is a hell of a town",
                    "new york was originally dutch",
                    "new york is also called the big apple",
                    "nyc is nice",
                    "the capital of great britain is london. london is a huge metropolis which has a great many number of people living in it. london is also a very …

Run Code Online (Sandbox Code Playgroud)

python classification machine-learning scikit-learn text-classification

aar*_*vam

2017 05-14

16
推荐指数

1
解决办法

3852
查看次数

GAN是否受到无人监督或监督？

我从一些消息来源获悉,Generative对抗性网络是无人监督的ML,但我没有得到它.生成对抗网络实际上并未受到监督吗？

1)2级案例真实反对假

实际上,必须向鉴别器提供训练数据,这必须是"真实的"数据,这意味着我将用fe 1标记的数据.即使一个人没有明确地标记数据,也可以通过在第一个中提供鉴别器来隐含地这样做.训练数据的步骤,您告诉鉴别器是真实的.通过这种方式,您可以以某种方式告诉鉴别器标记训练数据.相反,在发电机的第一级产生的噪声数据的标记,发电机知道该信号是不真实的.

2)多级案例

但在多类案件中它真的很奇怪.必须提供训练数据中的描述.显而易见的矛盾是,人们对无监督的ML算法提供了响应.

classification machine-learning neural-network

scr*_*mau

lucky-day

16
推荐指数

1
解决办法

7077
查看次数