通过Gensim查找未见文档的主题

Pet*_*rby 6 python nlp latent-semantic-indexing gensim

我正在使用Gensim进行一些大规模的主题建模.我很难理解如何确定未见(非索引)文档的预测主题.例如:我有2500万个文档,我已经转换为LSA(和LDA)空间中的向量.我现在想弄清楚一个新文档的主题,我们称之为x.

根据Gensim文档,我可以使用:

topics = lsi[doc(x)]
Run Code Online (Sandbox Code Playgroud)

其中doc(x)是将x转换为向量的函数.

然而,问题是上述变量主题返回一个向量.如果我将x与其他文档进行比较,该向量很有用,因为它允许我找到它们之间的余弦相似性,但我无法实际返回与x本身相关的特定单词.

我错过了什么,或者Gensim没有这种能力?

谢谢,

编辑

拉斯曼斯有答案.

我能够通过使用以下方式显示主题:

for t in topics:
    print lsi.show_topics(t[0])
Run Code Online (Sandbox Code Playgroud)

Fre*_*Foo 5

[]在LSI模型上返回的向量实际上是(topic, weight)对的列表.您可以通过该方法检查主题LsiModel.show_topic