小编lej*_*lot的帖子

Scikit-learn混淆矩阵

我无法弄清楚我是否正确设置了二进制分类问题.我标记了正类1和负0.但是我的理解是默认情况下scikit-learn在其混淆矩阵中使用0类作为正类(因此我将其设置为反向).这对我来说很困惑.在scikit-learn的默认设置中,排名是正面还是负面?让我们假设混淆矩阵输出:

confusion_matrix(y_test, preds)
 [ [30  5]
    [2 42] ]
Run Code Online (Sandbox Code Playgroud)

它在混淆矩阵中会是什么样子?实际实例是scikit-learn中的行还是列?

          prediction                        prediction
           0       1                          1       0
         -----   -----                      -----   -----
      0 | TN   |  FP        (OR)         1 |  TP  |  FP
actual   -----   -----             actual   -----   -----
      1 | FN   |  TP                     0 |  FN  |  TN
Run Code Online (Sandbox Code Playgroud)

python classification machine-learning scikit-learn

16
推荐指数
3
解决办法
1万
查看次数

在内核k-means(R中的kernlab包)中将新数据点分配给集群?

我对R包中的kkmeans功能有疑问kernlab.我是这个包的新手,请原谅我,如果我在这里遗漏了一些明显的东西.

我想将一个新数据点分配给一组集群中的集群,这些集群是使用内核k-means和函数'kkmeans'创建的.通过常规聚类,可以通过计算新数据点和聚类质心之间的欧几里德距离来实现此目的,并选择具有最接近质心的聚类.在内核k-means中,必须在特征空间中执行此操作.

以kkmeans描述中使用的示例为例:

data(iris)

sc <- kkmeans(as.matrix(iris[,-5]), centers=3)
Run Code Online (Sandbox Code Playgroud)

假设我在这里有一个新的数据点,我想将其分配给上面创建的最近的集群sc.

Sepal.Length  Sepal.Width  Petal.Length  Petal.Width
     5.0         3.6          1.2         0.4 
Run Code Online (Sandbox Code Playgroud)

关于如何做到这一点的任何提示?非常感谢您的帮助.

r cluster-analysis machine-learning k-means kernlab

12
推荐指数
1
解决办法
2707
查看次数

哪些Python贝叶斯文本分类模块与dbacl类似?

快速谷歌搜索显示,有很多贝叶斯分类器被实现为Python模块.如果我想要包装,类似于dbacl的高级功能,哪些模块适合我?

训练

% dbacl -l one sample1.txt
% dbacl -l two sample2.txt
Run Code Online (Sandbox Code Playgroud)

分类

% dbacl -c one -c two sample3.txt -v
one
Run Code Online (Sandbox Code Playgroud)

python text classification bayesian

11
推荐指数
1
解决办法
5139
查看次数

如何从numpy数组构造一个ndarray?蟒蛇

我似乎无法将其转换为ndarraynumpy,我已经阅读http://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.html但它没有告诉我我怎么能将我的输入数据转换为如下所示ndarray.

如何从numpy数组或整数列表列表构造一个ndarray? *ndarray和数组有什么区别?*我可以使用一种array类型吗?

我有一个像这样的整数计数列表

[[1, 2, 4, 1, 5],
 [6, 0, 0, 0, 2],
 [0, 0, 0, 1, 0]]
Run Code Online (Sandbox Code Playgroud)

我设法使用此代码创建一个np.arrayhttp://docs.scipy.org/doc/numpy/reference/generated/numpy.array.html#numpy.array中所示的

import numpy as np
x = [[1, 2, 4, 1, 5],
 [6, 0, 0, 0, 2],
 [0, 0, 0, 1, 0]]
print np.array(x)
Run Code Online (Sandbox Code Playgroud)

[OUT]:

[[1 2 4 1 5]
 [6 0 0 0 2]
 [0 0 0 1 0]]
Run Code Online (Sandbox Code Playgroud)

但是我不能np.ndarray用这段代码把它改成一个:

import numpy as np …
Run Code Online (Sandbox Code Playgroud)

python arrays numpy multidimensional-array

11
推荐指数
2
解决办法
4万
查看次数

从图像中减去均值

我正在与Theano实施CNN.在论文中,我必须在训练CNN之前进行此图像预处理

We extracted RGB patches of 61x61 dimensions associated with each poselet activation, subtracted the mean and used this data to train the convnet model shown in Table 1
Run Code Online (Sandbox Code Playgroud)

你能告诉我"减去平均数"是什么意思吗?告诉我这些步骤是否正确(这是我所理解的)1)计算整个图像的红色通道,绿色通道和蓝色通道的平均值2)对于每个像素,从红色值中减去红色通道的平均值,从绿色值绿色通道的平均值和蓝色通道的平均值3)具有负值是否正确或者我是否使用了abs?

谢谢大家!!

python machine-learning image-processing neural-network

10
推荐指数
2
解决办法
1万
查看次数

[scikit learn]:异常检测 - OneClassSVM的替代方案

我已经使用sklearn框架实现了LinearSVC和SVC进行文本分类.我使用TfidfVectorizer来获取由两个不同类(良性数据和恶意数据)组成的输入数据的稀疏表示.这部分工作得非常好,但现在我想通过使用OneClassSVM分类器并仅使用一个类(异常值检测...)训练模型来实现某种异常检测.不幸的是,它不适用于稀疏数据.一些开发人员正在开发一个补丁(https://github.com/scikit-learn/scikit-learn/pull/1586)但是有一些错误,所以还没有使用OneClassSVM实现的解决方案.

在sklearn框架中是否有其他方法可以做类似的事情?我正在查看这些示例,但似乎没有任何内容.

谢谢!

python machine-learning svm scikit-learn

8
推荐指数
2
解决办法
9002
查看次数

域名分类API

我需要将域分类为可以最好地使用域名的不同类别.就像将"gamez.com"归类为游戏门户一样.是否有任何提供像Sedo这样的域名分类的服务?

dns classification categorization

7
推荐指数
1
解决办法
2699
查看次数

从一组文档中对标记句子进行分类的最佳方法

我有分类问题,我需要找出解决它的最佳方法.我有一套培训文件,其中一些文件中的句子和/或段落标有一些标签.并非所有句子/段落都被标记.句子或段落可能有多个标签/标签.我想做的是制作一些模型,在给出新文档的情况下,它会给出文档中每个句子/段落的建议标签.理想情况下,它只会给我高概率的建议.

如果我使用像nltk NaiveBayesClassifier这样的东西,它会给出不好的结果,我认为因为它没有考虑训练文档中的"未标记"句子,这些句子将包含许多与标记句子相似的单词和短语.这些文件具有法律/财务性质,并且充满法律/财务术语,其中大多数应在分类模型中打折扣.

除了来自训练集的标记数据之外,还有一些比Naive Bayes更好的分类算法,还是有一些方法可以将未标记的数据推入朴素的贝叶斯?

nlp classification machine-learning nltk

7
推荐指数
1
解决办法
2769
查看次数

使用libSVM的SVM中的数据不平衡

当我使用由75%'true'标签和25%'false'标签组成的不平衡数据集时,我应该如何在libSVM中设置gamma和Cost参数?由于数据不平衡,我得到一个恒定的错误,即所有预测标签都设置为'True'.

如果问题不在于libSVM,而在于我的数据集,我应该如何从理论机器学习的角度处理这种不平衡?*我使用的功能数量在4-10之间,我有一小组250个数据点.

machine-learning svm libsvm

7
推荐指数
2
解决办法
6221
查看次数

删除 Julia 中的整个工作区或一个变量

我已经搜索了一段时间并尝试了 CommonRLInterface https://github.com/JuliaReinforcementLearning/CommonRLInterface.jl。有一些可变变量。我不是 Julia 编程专家,但我想清除整个工作区或删除可变变量(据我所知,可变变量不允许这样做,但在 CommonRLInterface 中它来自 AbstractEnv 超类,因此我无法更改它)。

struct myEnv <: AbstractEnv 

julia> myGridWorld=Nothing
ERROR: invalid redefinition of constant myGridWorld
Stacktrace:
 [1] top-level scope
   @ none:1
Run Code Online (Sandbox Code Playgroud)

我想清理整个工作区。所以我必须停止 Julia 并重新启动它。另外我必须再次激活环境。

如果存在一个按钮或快捷键,它会自动重置工作区,在必要时启动新的 julia 内核并激活最后一个环境(也许还会重新启动代码),这将对我有所帮助。

存在类似的帖子,但没有帮助 https://discourse.julialang.org/t/how-to-clear-variables-and-or-whole-work-space/10149

julia atom-editor

6
推荐指数
1
解决办法
2862
查看次数