Scikit-learn 的 LDA 实现中的“困惑度”（或“分数”）应该上升还是下降？

Question

我想知道 Scikit-learn 的 LDA 实现中的困惑度和分数意味着什么。这些功能是晦涩难懂的。

至少，我需要知道当模型更好时这些值是增加还是减少。我已经搜索过，但有些不清楚。我觉得困惑应该减少，但我想要一个关于这些值应该如何上升或下降的明确答案。

Answer 1

困惑度是衡量模型预测样本的能力的指标。

根据Blei、Ng 和 Jordan 的潜在狄利克雷分配，

[W]我们计算了保留测试集的困惑度来评估模型。按照语言建模中的惯例，困惑度在测试数据的似然度中单调递减，并且在代数上等价于每个单词似然度的几何平均数的倒数。较低的困惑度分数表明更好的泛化性能。

这可以通过论文中的下图看出：

从本质上讲，由于困惑度相当于几何平均值的倒数，因此较低的困惑度意味着数据更有可能。因此，随着主题数量的增加，模型的复杂度应该会降低。