Dam*_*mio 4 nlp lsa lda topic-modeling topicmodels
我读了这个问题(相干分数 0.4 是好还是坏?),发现相干分数(u_mass)是从 -14 到 14。但是当我做实验时,我得到的 u_mass 分数为 -18,c_v 分数为 0.67 。我想知道我的 u_mass 分数如何超出范围 (-14, 14)?
更新:我使用gensim库并扫描了从2到50的主题数量。对于u_mass,它从0开始到最低的负点并返回一点,就像c_v的颠倒版本。
按照此处所述(第 13-14 页),这是 @Dammio 在他的回答中提到的同一文档,解释是相反的。文中写道:“根据 UMASS 相干性测量,当 K 增加时,全局主题的相干性会降低。” K 是主题的数量。他们继续说道:“为了进行分析,我们比较了 K = 6 的模型,进行了 40 次迭代,这是局部最小值,而 10 次迭代则表现更好。” 从图中可以清楚地看到,它比较了较差的局部最小值和更加一致的局部最大值。这意味着与接受的答案中所述的内容完全相反。此外,我在 Github 帖子中发现了完全相同的说法:值越高越好:链接到 Github 答案