为什么sklearn LatentDirichletAllocation的fit和partial_fit会返回不同的结果？

Question

为什么sklearn LatentDirichletAllocation的fit和partial_fit会返回不同的结果？

aug*_*lec 9 python scikit-learn

奇怪的是,它似乎与fit和partial_fit完全相同.

您可以在以下链接中查看代码:

https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L478

Answer 1

Gui*_*sch 11

代码不完全相同; partial_fit用途total_samples:

"total_samples:int,optional(default = 1e6)文档总数.仅用于partial_fit方法."

https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L184

(部分适合)https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L472

(适合)https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L510

以防万一您感兴趣:partial_fit只要您的数据集非常大,就可以使用它.因此,不要遇到可能的内存问题,而是以较小的批量执行拟合,这称为增量学习.

因此,在您的情况下,您应该考虑total_samples默认值是1000000.0.因此,如果您不更改此数字并且您的实际样本数量更大,那么您将从该fit方法获得不同的结果fit_partial.或者可能是您使用迷你批次fit_partial并且未覆盖您为fit方法提供的所有样本.即使你做得对,你也可以得到不同的结果,如文档中所述:

"增量学习者本身可能无法应对新的/看不见的目标类.在这种情况下,你必须使用classes =参数将所有可能的类传递给第一个partial_fit调用."
"[...]选择一个合适的算法是,所有这些算法都不会对每个例子的重要性随着时间推移[...]

sklearn文档:https://scikit-learn.org/0.15/modules/scaling_strategies.html#incremental-learning

归档时间：	9 年，9 月前
查看次数：	8886 次
最近记录：	6 年，9 月前