相关疑难解决方法(0)

预测新数据的LDA主题

看起来这个问题可能已经被问了几次(这里 和这里),但还有待回答.我希望这是由于之前提出的问题含糊不清,正如评论所表明的那样.如果我通过再次询问一个类似问题来破坏协议,我道歉,我只是假设这些问题不会有任何新的答案.

无论如何,我是Latent Dirichlet Allocation的新手,我正在探索它作为文本数据降维方法的用途.最后,我想从一大堆单词中提取一小组主题,并使用这些主题作为模型中的一些变量来构建分类模型.我已经成功地在训练集上运行LDA,但我遇到的问题是能够预测哪些相同的主题出现在其他一些测试数据集中.我现在正在使用R的topicmodels包,但是如果还有其他方法可以使用其他包,我也会对此开放.

这是我想要做的一个例子:

library(topicmodels)
data(AssociatedPress)

train <- AssociatedPress[1:100]
test <- AssociatedPress[101:150]

train.lda <- LDA(train,5)
topics(train.lda)

#how can I predict the most likely topic(s) from "train.lda" for each document in "test"?
Run Code Online (Sandbox Code Playgroud)

r lda topic-modeling

17
推荐指数
1
解决办法
1万
查看次数

标签 统计

lda ×1

r ×1

topic-modeling ×1