标签: classification

%% dimensionality reduction 
columns = 6
[U,S,V]=svds(fulldata,columns);

%% randomly select dataset
rows = 1000;
columns = 6;

%# pick random rows
indX = randperm( size(fulldata,1) );
indX = indX(1:rows)';

%# pick random columns
%indY = randperm( size(fulldata,2) );
indY = indY(1:columns);

%# filter data
data = U(indX,indY);

%% apply normalization method to every cell
data = zscore(data);

%create a training set the same as datasample
training_data = data;

%match the class labels to the corresponding rows
target_class = classlabels(indX,:) …

Run Code Online (Sandbox Code Playgroud)

matlab classification machine-learning probability naivebayes

G G*_* Gr

2019 04-11

3
推荐指数

1
解决办法

1085
查看次数

用木槌训练分类器

我有一个csv文件,其格式如下
productname,产品评论

现在使用mallet我必须训练分类器,这样如果测试数据集作为输入包含产品评论,它应该告诉我特定评论属于哪个产品

mallet java api帮助将不胜感激

classification mallet

use*_*427

lucky-day

3
推荐指数

1
解决办法

2299
查看次数

ID3和C4.5:"增益比"如何规范化"增益"？

ID3算法使用"信息增益"度量.

C4.5使用"增益比"度量,即信息增益除以SplitInfo,而SplitInfo对于分割,其中记录在不同结果之间均匀分配,否则为低.

我的问题是:

这有助于解决信息增益偏向于具有多种结果的分裂的问题？我看不出原因.SplitInfo甚至没有考虑结果的数量,只考虑分裂中的记录分布.

很可能是结果数量较少(比如2),并且记录在这两种结果之间平均分配.在这种情况下,SplitInfo高,增益比率低,C4.5选择的结果很少.

另一方面,可能是结果数量较少,但分布远不均匀.在这种情况下,SplitInfo低,增益比率高,并且更有可能选择具有许多结果的分裂.

我错过了什么？

math statistics computer-science classification data-mining

yon*_*nih

2012 11-05

3
推荐指数

1
解决办法

3305
查看次数

密集的SIFT比SIFT更适合词袋吗？

我正在使用OpenCV实现Bag-of-Words图像分类器.最初我测试了在SURF关键点中提取的SURF描述符.我听说Dense SIFT(或PHOW)描述符可以更好地用于我的目的,所以我也尝试过它们.

令我惊讶的是,他们表现得更差,实际上差了近10倍.我能做错什么？我正在使用OpenCV的DenseFeatureDetector获取关键点.我从9层中提取每个图像大约5000个描述符,并将它们聚类成500个簇.

我应该从VLFeat库中尝试PHOW描述符吗？此外,我不能在OpenCV的SVM实现中使用chi square内核,这在许多论文中都是推荐的.这对分类器质量至关重要,我应该尝试另一个库吗？

另一个问题是尺度不变性,我怀疑它可能受到密集特征提取的影响.我对吗？

opencv classification feature-extraction computer-vision

liz*_*isk

lucky-day

3
推荐指数

1
解决办法

3725
查看次数

Weka中的分类器选项显示为灰色

我的数字数据缺少值.我想在Weka中使用朴素贝叶斯分类器对数据进行分类,但选项显示为灰色.请帮忙.

classification machine-learning data-mining weka

use*_*953

2013 03-22

3
推荐指数

1
解决办法

9551
查看次数

关于垃圾邮件检测中精度和召回的困惑

我正在做一个根据教程检测垃圾邮件帐户的项目.两个标签 - "垃圾邮件"和"非垃圾邮件"用于训练和测试.分类已经完成,我正在进行评估.

结果是:

*Spam* precision: 0.962917933131
*Spam* recall: 0.6336

*Not spam* precision: 0.72697466468
*Not spam* recall: 0.9756

Run Code Online (Sandbox Code Playgroud)

我已经阅读了精确和召回的维基,仍然感到困惑,并且不知道如何将它用于测量.

我的目的是减少标记为"垃圾邮件"的普通帐户的数量.一些"垃圾邮件"帐户可以逃脱并不重要.所以我想知道上面哪些结果我应该集中精力改进？谢谢.

classification machine-learning spam precision-recall

zfz*_*zfz

2016 03-12

3
推荐指数

1
解决办法

1636
查看次数

NLTK perceptron tagger"TypeError:'LazySubsequence'对象不支持项目分配"

我想尝试使用Python 3.5 PerceptronTagger中的nltk包,但我收到错误TypeError: 'LazySubsequence' object does not support item assignment

我想用棕色语料库中带有universal标签的数据训练它.

这是我遇到问题时运行的代码.

import nltk,math
tagged_sentences = nltk.corpus.brown.tagged_sents(categories='news',tagset='universal')
i = math.floor(len(tagged_sentences)*0.2)
testing_sentences = tagged_sentences[0:i]
training_sentences = tagged_sentences[i:]
perceptron_tagger = nltk.tag.perceptron.PerceptronTagger(load=False)
perceptron_tagger.train(training_sentences)

Run Code Online (Sandbox Code Playgroud)

它无法正确训练,并提供以下堆栈跟踪.

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-10-61332d63d2c3> in <module>()
      1 perceptron_tagger = nltk.tag.perceptron.PerceptronTagger(load=False)
----> 2 perceptron_tagger.train(training_sentences)

/home/nathan/anaconda3/lib/python3.5/site-packages/nltk/tag/perceptron.py in train(self, sentences, save_loc, nr_iter)
    192                     c += guess == tags[i]
    193                     n += 1
--> 194             random.shuffle(sentences)
    195             logging.info("Iter {0}: {1}/{2}={3}".format(iter_, c, n, _pc(c, …

Run Code Online (Sandbox Code Playgroud)

classification perceptron nltk anaconda python-3.5

Nat*_*Coy

lucky-day

3
推荐指数

1
解决办法

714
查看次数