标签: unsupervised-learning

主题建模和文档聚类之间有什么关系?

主题建模可识别文档集合中主题的分布,从而有效地识别集合中的集群.那么说主题建模是一种进行文档聚类的技术是正确的吗?

cluster-analysis unsupervised-learning topic-modeling

10
推荐指数
1
解决办法
3337
查看次数

无监督学习中的训练/测试拆分是否必要/有用?

在监督学习中,我有典型的训练/测试分割来学习算法,例如回归或分类。关于无监督学习,我的问题是:训练/测试拆分是否必要和有用?如果是,为什么?

machine-learning unsupervised-learning

10
推荐指数
1
解决办法
1万
查看次数

Affinity Propagation首选项初始化

我需要在不事先知道集群数量的情况下执行集群.簇的数量可以是1到5,因为我可以找到所有样本属于同一实例或有限数量的组的情况.我认为亲和力传播可能是我的选择,因为我可以通过设置首选项参数来控制群集的数量.但是,如果我有人工生成的单个集群,并且我将节点之间的最小欧氏距离设置为偏好(以最小化集群数量),那么我对集群的处理非常糟糕.

"""
=================================================
Demo of affinity propagation clustering algorithm
=================================================

Reference:
Brendan J. Frey and Delbert Dueck, "Clustering by Passing Messages
Between Data Points", Science Feb. 2007

"""
print(__doc__)
import numpy as np
from sklearn.cluster import AffinityPropagation
from sklearn import metrics
from sklearn.datasets.samples_generator import make_blobs
from scipy.spatial.distance import pdist

##############################################################################
# Generate sample data
centers = [[0,0],[1,1]]
X, labels_true = make_blobs(n_samples=300, centers=centers, cluster_std=0.5,
                            random_state=0)
init = np.min(pdist(X))

##############################################################################
# Compute Affinity Propagation
af = AffinityPropagation(preference=init).fit(X)
cluster_centers_indices = af.cluster_centers_indices_
labels = …
Run Code Online (Sandbox Code Playgroud)

cluster-analysis machine-learning unsupervised-learning scikit-learn

10
推荐指数
1
解决办法
4392
查看次数

什么是远程监督?

根据我的理解,远程监督是指定一个段落(通常是一个句子)的单个词试图传达的概念的过程.

例如,数据库维护结构化关系 concerns( NLP, this sentence).

我们的远程监督系统将把句子作为输入: "This is a sentence about NLP."

基于这句话会认识到实体,因为作为一个预处理步骤判决将已通过命名实体识别通过,NLPthis sentence.

由于我们的数据库具有它NLP并且this sentence通过concern(s)它的关系相关联,因此将输入句子识别为表达关系Concerns(NLP, this sentence).

我的问题有两个:

1)有什么用?是不是以后我们的系统可能会在"狂野"中看到一个句子,That sentence is about OPP并且意识到它看起来与以前的类似,从而实现了这样的新颖关系concerns(OPP, that sentence).,仅仅基于单词/个体标记?

2)是否考虑了句子的实际用语?动词'是'和副词'关于',例如,实现(通过WordNet或其他一些下位系统),这在某种程度上类似于高阶概念"关注"?

有没有人有一些代码用于生成我可以看到的远程监控系统,即交​​叉引用KB的系统(如Freebase)和语料库(如NYTimes),并生成远程监管数据库?我认为这将有助于澄清我对远程监督的看法.

nlp stanford-nlp unsupervised-learning supervised-learning

9
推荐指数
2
解决办法
8911
查看次数

机器学习:无监督的反向传播

我在通过神经网络进行机器学习的一些概念方面遇到了麻烦.其中一个是反向传播.在权重更新方程中,

delta_w = a*(t - y)*g'(h)*x
Run Code Online (Sandbox Code Playgroud)

t是"目标输出",在监督学习的情况下,它将是您的类别标签或其他东西.但是,"目标输出"对于无监督学习会是什么?

有人可以提供一个例子,说明如何在无监督学习中使用BP,特别是对于分类的聚类?

提前致谢.

machine-learning neural-network unsupervised-learning

8
推荐指数
2
解决办法
4537
查看次数

为什么DropOut不用于无监督学习?

所有或几乎所有使用辍学的论文都将其用于监督学习.似乎它可以很容易地用于规范深度自动编码器,RBM和DBN.那么为什么辍学不用于无监督学习呢?

machine-learning neural-network unsupervised-learning supervised-learning

8
推荐指数
1
解决办法
2543
查看次数

我们如何在数据集上使用无监督学习技术,然后标记集群?

首先,这肯定是家庭作业(所以请不要提供完整的代码示例).那说......

我需要使用Matlab中的神经网络工具箱测试监督算法旁边的无监督算法.数据集是UCI人工角色数据库.问题是,我有一个关于监督算法的好教程,并且在没有监督的情况下被抛弃了.

所以我知道如何使用创建自组织地图 selforgmap,然后我使用它进行训练train(net, trainingSet).我不明白接下来该做什么.我知道它将我给它的数据(希望是10个簇)(每个字母一个)聚集在一起.

那么两个问题:

  • 然后我如何标记集群(假设我有比较模式)?
    • 当我这样做时,我是否试图将其变成有监督的学习问题?
  • 如何在(另一个)测试集上创建一个混淆矩阵以与监督算法进行比较?

我想我在这里缺少概念性或行话式的东西 - 我所有的搜索都提出了有监督的学习技巧.正确方向的一点将非常感激.我现有的代码如下:

P = load('-ascii', 'pattern');
T = load('-ascii', 'target');

% data needs to be translated
P = P';
T = T';

T = T(find(sum(T')), :);

mynet = selforgmap([10 10]);
mynet.trainparam.epochs = 5000;
mynet = train(mynet, P);


P = load('-ascii', 'testpattern');
T = load('-ascii', 'testtarget');

P = P';
T = T';
T = T(find(sum(T')), :);

Y = sim(mynet,P);
Z = compet(Y);

% this gives me …
Run Code Online (Sandbox Code Playgroud)

matlab machine-learning neural-network unsupervised-learning

7
推荐指数
1
解决办法
4062
查看次数

如何加速R中的主题模型?

背景 我试图使用以下数据和规范文档来拟合主题模型= 140 000,单词= 3000,主题= 15.我topicmodels在Windows 7机器上使用R(3.1.2)中的软件包(ram 24 GB ,8核心).我的问题是计算只能继续进行,而不会产生任何"收敛".

我在LDA()函数中使用默认选项topicmodels:

运行模型

dtm2.sparse_TM <- LDA(dtm2.sparse, 15)
Run Code Online (Sandbox Code Playgroud)

该模型已经运行了大约72个小时 - 仍然像我写的那样.

问题 所以,我的问题是(a)这是否是正常行为; (b)如果不是第一个问题,你对做什么有任何建议; (c)如果对第一个问题是肯定的,我怎样才能大大提高计算的速度?

附加信息:原始数据不包含3000字,但约370万字.当我跑(在同一台机器上)它没有收敛,甚至在几周之后.所以我用300个单词运行它,只有500个文件(随机选择)并且都不是很好.对于所有模型,我使用与以前相同的主题和默认值.

因此,对于我当前的模型(请参阅我的问题),我在tm包的帮助下删除了稀疏术语.

删除稀疏术语

dtm2.sparse <- removeSparseTerms(dtm2, 0.9)
Run Code Online (Sandbox Code Playgroud)

感谢提前输入Adel

r machine-learning lda unsupervised-learning topic-modeling

7
推荐指数
1
解决办法
1873
查看次数

在Python中绘制聚类图

我已经有了一种聚类图形的方法,因此聚类过程不是问题.我想要做的是,一旦我们将所有节点聚集在一起 - 用Python绘制聚类图,如下所示:

在此输入图像描述

我查看了networkx,igraph和graph-tool,但它们似乎是在进行聚类,而不是绘图.我应该使用什么库来绘制已经聚类的图形的任何想法和命题,这将最大限度地减少交叉链接的数量?

python graph cluster-analysis graph-drawing unsupervised-learning

6
推荐指数
1
解决办法
811
查看次数

如何加快Scikit学习的k均值?

在我的项目中,我曾使用k均值对组之间的数据进行分类,但是我对Scikit-learn的k均值的计算存在问题-速度非常慢。我需要加强它。

我尝试将更n_jobs改为-1,但是速度仍然很慢!

有什么建议如何加快?

python machine-learning k-means unsupervised-learning scikit-learn

6
推荐指数
1
解决办法
4291
查看次数