如何监控Gensim LDA模型的收敛性？

Question

如何监控Gensim LDA模型的收敛性？

Zef*_*niX 9 python lda gensim convergence

我似乎无法找到它,或者我的统计及其术语的知识可能是这里的问题,但我想从PyPI实现与LDA lib底页上的图形类似的东西,并观察其的均匀性/收敛性.线.如何使用Gensim LDA实现这一目标？

Answer 1

您希望绘制模型拟合的收敛性是正确的。不幸的是，Gensim 似乎并没有让这一切变得非常简单。

以这样一种方式运行模型，您将能够分析模型拟合函数的输出。我喜欢设置日志文件。

import logging
logging.basicConfig(filename='gensim.log',
                    format="%(asctime)s:%(levelname)s:%(message)s",
                    level=logging.INFO)

Run Code Online (Sandbox Code Playgroud)

中设置eval_every参数LdaModel。此值越低，绘图的分辨率就越高。但是，计算困惑度会大大降低您的适应度！
```
lda_model = 
LdaModel(corpus=corpus,
         id2word=id2word,
         num_topics=30,
         eval_every=10,
         pass=40,
         iterations=5000)
```
Run Code Online (Sandbox Code Playgroud)

解析日志文件并制作您的绘图。

import re
import matplotlib.pyplot as plt
p = re.compile("(-*\d+\.\d+) per-word .* (\d+\.\d+) perplexity")
matches = [p.findall(l) for l in open('gensim.log')]
matches = [m for m in matches if len(m) > 0]
tuples = [t[0] for t in matches]
perplexity = [float(t[1]) for t in tuples]
liklihood = [float(t[0]) for t in tuples]
iter = list(range(0,len(tuples)*10,10))
plt.plot(iter,liklihood,c="black")
plt.ylabel("log liklihood")
plt.xlabel("iteration")
plt.title("Topic Model Convergence")
plt.grid()
plt.savefig("convergence_liklihood.pdf")
plt.close()

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，6 月前
查看次数：	2518 次
最近记录：	8 年，4 月前