我可以从gensim运行LDA代码,并使用各自的关键字获得前10个主题.
现在,我想进一步了解LDA算法的准确性,看看他们将哪些文档聚集到每个主题中.这对于gensim LDA有可能吗?
基本上我想做这样的事情,但在python和使用gensim.
看起来这个问题可能已经被问了几次(这里 和这里),但还有待回答.我希望这是由于之前提出的问题含糊不清,正如评论所表明的那样.如果我通过再次询问一个类似问题来破坏协议,我道歉,我只是假设这些问题不会有任何新的答案.
无论如何,我是Latent Dirichlet Allocation的新手,我正在探索它作为文本数据降维方法的用途.最后,我想从一大堆单词中提取一小组主题,并使用这些主题作为模型中的一些变量来构建分类模型.我已经成功地在训练集上运行LDA,但我遇到的问题是能够预测哪些相同的主题出现在其他一些测试数据集中.我现在正在使用R的topicmodels包,但是如果还有其他方法可以使用其他包,我也会对此开放.
这是我想要做的一个例子:
library(topicmodels)
data(AssociatedPress)
train <- AssociatedPress[1:100]
test <- AssociatedPress[101:150]
train.lda <- LDA(train,5)
topics(train.lda)
#how can I predict the most likely topic(s) from "train.lda" for each document in "test"?
Run Code Online (Sandbox Code Playgroud)