标签: unsupervised-learning

具有NLTK的半监督朴素贝叶斯

我基于EM(期望最大化算法)在Python中构建了一个半监督版的NLTK Naive Bayes.然而,在EM的一些迭代中,我得到负的对数似然(EM的对数似然性在每次迭代中必须是正的),因此我相信我的代码中肯定会有一些错误.仔细检查我的代码后,我不知道为什么会这样.如果有人能在我的代码中发现任何错误,我们将非常感激:

(半监督朴素贝叶斯的参考资料)

EM算法主循环

#initial assumptions:
#Bernoulli NB: only feature presence (value 1) or absence (value None) is computed 

#initial data:
#C: classifier trained with labeled data
#labeled_data: an array of tuples (feature dic, label)
#features: dictionary that outputs feature dictionary for a given document id  

for iteration in range(1, self.maxiter):    

  #Expectation: compute probabilities for each class for each unlabeled document
  #An array of tuples (feature dictionary, probability dist) is built       
  unlabeled_data = [(features[id],C.prob_classify(features[id])) for id in …

Run Code Online (Sandbox Code Playgroud)

python machine-learning nltk unsupervised-learning naivebayes

SUP*_*SUP

2019 04-11

6
推荐指数

1
解决办法

1829
查看次数

R中的主成分分析(PCA):使用哪个函数？

谁能解释一下prcomp和princomp函数之间的主要区别是什么？

有什么特别的理由让我选择一个而不是另一个吗？如果这是相关的,我正在研究的应用类型是基因组(表达)数据集的质量控制分析.

谢谢!

r linear-algebra pca unsupervised-learning

And*_*raD

2013 11-10

6
推荐指数

1
解决办法

3128
查看次数

在Python中绘制聚类图

我已经有了一种聚类图形的方法,因此聚类过程不是问题.我想要做的是,一旦我们将所有节点聚集在一起 - 用Python绘制聚类图,如下所示:

在此输入图像描述

我查看了networkx,igraph和graph-tool,但它们似乎是在进行聚类,而不是绘图.我应该使用什么库来绘制已经聚类的图形的任何想法和命题,这将最大限度地减少交叉链接的数量？

python graph cluster-analysis graph-drawing unsupervised-learning

Bel*_*gor

lucky-day

6
推荐指数

1
解决办法

811
查看次数

无监督的短语语义聚类

我有大约一千个潜在的调查项目作为字符串向量,我想减少到几百.通常,当我们谈论数据减少时,我们有实际数据.我将项目管理给参与者并使用因子分析,PCA或其他一些降维方法.

就我而言,我没有任何数据.只是项目(即文本字符串).我想通过消除具有相似含义的项目来减少集合.据推测,如果实际给予参与者,他们将是高度相关的.

我一直在阅读有关文本分析的聚类方法.这个SO问题展示了我在不同的例子中看到过的方法.OP指出,群集解决方案并不能完全回答他/她的问题.以下是在我的案例中如何应用(令人不满意):

# get data (2 columns, 152 rows)

Run Code Online (Sandbox Code Playgroud)

使用样本项的dput()链接到text.R文件

# clustering
library(tm)
library(Matrix)
x <- TermDocumentMatrix( Corpus( VectorSource(text$item) ) )
y <- sparseMatrix( i=x$i, j=x$j, x=x$v, dimnames = dimnames(x) )  
plot( hclust(dist(t(y))) )

Run Code Online (Sandbox Code Playgroud)

该图显示项目145和149是聚类的:

145"让你知道你不被通缉"

149"让你知道他爱你"

这些项目共享相同的词干,"让你知道",这可能是聚类的原因.从语义上讲,它们是对立的.

OP与他/她的例子有类似的挑战.一位意见提供者指出wordnet包装是一种可能的解决方案.

问题(根据反馈编辑)

我怎样才能阻止像145和149这样的项目进行聚类,因为它们共享干？

问题重点较少的次要问题:有人在这里看到更好的解决方案吗？我遇到的许多方法都涉及监督学习,测试/训练数据集和分类.我相信我正在寻找的是更多的语义相似性/聚类(例如,FAC pdf).

r cluster-analysis text-mining unsupervised-learning

Eri*_*een

2017 05-23

6
推荐指数

1
解决办法

1753
查看次数

用scikit选择层次凝聚聚类中的聚类数

关于确定数据集中群集数量的维基百科文章表明,在使用层次聚类时,我不需要担心这样的问题.然而,当我尝试使用scikit-learn的凝聚聚类时,我发现我必须将聚类的数量作为参数"n_clusters"提供 - 没有它我得到两个聚类的硬编码默认值.在这种情况下,如何为数据集选择正确数量的聚类？维基文章错了吗？

artificial-intelligence cluster-analysis machine-learning unsupervised-learning scikit-learn

DaT*_*omB

2015 08-26

6
推荐指数

1
解决办法

1534
查看次数